Informática, Tecnoloxía da información
Codificación "Unicode": estándar de codificación de caracteres
Todo usuario de Internet nun intento de establecer un ou outro da súa función, polo menos unha vez viu na pantalla escrita en letras latinas , a palabra "Unicode". ¿Que é iso, vai aprender lendo este artigo.
definición
Codificación "Unicode" - patrón de codificación de caracteres. Foi proposto por Unicode Inc organización sen ánimo de lucro en 1991. O estándar está deseñado para reunir o maior número posible de diferentes tipos de caracteres nun documento. Páxina, que foi creada a base do mesmo, pode conter letras e caracteres de idiomas diferentes (do ruso ao coreano) e signos matemáticos. Neste caso, todos os caracteres no conxunto de caracteres aparecen sen os problemas.
As razóns para a creación de
Era unha vez, moito antes da aparición dun único sistema de "Unicode" encoding é seleccionado a partir das preferencias do autor do documento. Por esta razón, moitas veces para ler un documento, era necesario utilizar distintas táboas. Ás veces é necesario facer varias veces, o que complica moito a vida do usuario medio. Como xa se mencionou, a solución a este problema en 1991 foi invitado a Unicode Inc., unha organización sen ánimo de lucro para ofrecer un novo tipo de codificación de caracteres. Foi deseñado para combinar superada e unha variedade de estándares. "Unicode" - un conxunto de caracteres que ozvolila alcanzar o impensable na época: para crear unha ferramenta que permite un gran número de caracteres. O resultado superou moitas expectativas - había documentos á vez que conteñen tanto inglés e ruso texto, latín e matemáticas expresións.
Pero a creación dun código unificado precedida pola necesidade de resolver unha serie de problemas que xurdiron debido á enorme variedade de patróns existentes na época. O máis común deles:
- escrita élfica, ou "sen sentido",
- as limitacións do conxunto de caracteres;
- problema transformar codificacións;
- duplicación fonte.
xira histórica pequena
Imaxina que o 80º curro. hardware do ordenador non é tan común e ten unha forma diferente de hoxe. Mentres cada sistema operativo é único e refinado necesidades específicas de cada entusiasta. Precisa para o intercambio de información é convertido nun retraballados todo adicional. Intentando ler un documento creado por outro sistema operativo, moitas veces amosa un estraño xogo de caracteres, eo xogo comeza coa codificación. Non sempre facelo axiña, e ás veces documento necesario Non se pode abrir en seis meses, e mesmo máis tarde. As persoas que frecuentemente intercambian información, crear para si unha táboa de conversión. E, a continuación, traballar con eles revela un detalle interesante: a necesidade de crealos en dúas direccións, "o meu na súa" adiante e cara atrás. Fai inversión banal máquina de computación non pode, polo que na columna da dereita da fonte, e á esquerda - o resultado, pero non viceversa. Se ve a necesidade de utilizar calquera caracteres especiais no documento, eles tiveron que engadirse en primeiro lugar, e logo outro, e para explicar ao compañeiro o que cómpre facer para estes personaxes non facer un "xerga". E non nos esquezamos de que, baixo cada codificación tiveron que desenvolver ou aplicar as súas propias fontes, o que levou á creación de un gran número de duplicados no VOS.
Imaxina tamén que as fontes na páxina, vai ver 10 pezas de idéntica Times New Roman cunha pequena nota: UTF-8, UTF-16, ANSI, UCS-2. Agora entende que o desenvolvemento de estándares universais era imperativo?
"Os pais fundadores dos creadores de"
A orixe da creación Unicode a atopar en 1987, cando Dzho Bekker da Xerox, xunto con Lee Collins e Mark Davis Apple comezou a investigación no campo da práctica creación dun universal xogo de caracteres. En agosto de 1988, Dzho Bekker publicou un proxecto de proposta para a creación do sistema de codificación internacional de 16 bits multi-lingual.
Poucos meses despois, grupo de traballo Unicode foi expandido para incluír Ken Whistler e Mike Kernegana de RLG, Glenn Rayt de Sun Microsystems e outros especialistas, permitindo a conclusión dos traballos sobre a formación preliminar de un patrón de codificación común.
descrición xeral
O Unicode baseado no concepto do símbolo. Baixo esta definición refírese a un fenómeno abstracto que existe nunha forma particular de escritura e realizada por medio dun grafema (os seus "retratos"). Cada personaxe é xa o código de "Unicode" único pertencente a un patrón unidade particular. Por exemplo grafema B tamén está en inglés e alfabeto ruso, pero corresponde a Unicode 2 personaxes diferentes. Están suxeitos a conversión a minúsculas, t. E., cada un dos cales describe a base de datos clave, un conxunto de propiedades eo nome completo.
Beneficios do Unicode
Doutros contemporáneos que codifican "Unicode" Hai unha enorme stock de signos para os personaxes "Cifrado". O feito de que os seus antecesores tiña 8 bits, que é soportado por 28 carácteres, aínda que o novo deseño xa era 216 caracteres, que foi un paso xigante para adiante. Isto permitiu codificar case todos os alfabetos existentes e comúns.
Coa chegada da "Unicode" xa non ten que empregar unha táboa de conversión: como un único patrón que só negou a necesidade para eles. Do mesmo xeito, eles caeron no esquecemento, e "rabiscos" - un estándar único fíxolles imposible, así como regra para a necesidade de crear fontes duplicadas.
desenvolvemento de Unicode
Por suposto, o progreso non está en vigor, e desde a primeira presentación xa pasou por 25 anos. Con todo, charset "Unicode" teimoso mantén a súa posición no mundo. De moitas formas isto foi posible grazas ao feito de que se fixo fácil de implementar e se espallou, sendo recoñecida desenvolvedores de software propietario (de pago) e aberto.
Non debemos crer que hoxe vemos o mesmo código de "Unicode" como o cuarto de século atrás. Neste momento, foi substituída por versión 5.h.h, eo número de símbolos codificados aumentou a 231. Sobre a posibilidade de utilizar unha maior marxe marcas rexeitouse a tamén manter o soporte para Unicode-16 (codificación, onde a cantidade máxima de seu número limitado 216). Dende a súa creación e ata a versión 2.0.0 "O Unicode Standard" aumentou o número de caracteres que incluíu case 2 veces. oportunidades e crecemento continuo nos próximos anos. Para a versión 4.0.0 xa hai unha necesidade de aumentar o propio patrón, e iso foi feito. Como resultado, "Unicode" atopou a forma en que a coñecemos hoxe.
O que máis está Unicode?
Ademais da ampla, constantemente actualizado co número de caracteres, "Unicode" -Encoding texto de información é outro útil característica. Este é o chamado normalización. Ao contrario de percorrer o personaxe documento polo carácter, e substituír as iconas da táboa de correspondencia, usa un dos algoritmos de normalización existentes. ¿Que é iso?
No canto de perder os recursos do ordenador nunha comprobación regular do mesmo carácter, o que pode ser semellante en alfabetos diferentes, utilizando un algoritmo especial. Permite que facer un personaxe similar das columnas individuais da busca de mesa e acceso xa a eles, non unha e outra vez para comprobar de novo todos os datos.
Estes algoritmos son desenvolvidos e aplicados catro. Cada conversión ocorre por principio estrictamente definido, diferente do outro, para chamar calquera deles non é o máis eficiente posible. Cada un designado para necesidades específicas, incorporouse e usado con éxito.
estándar Divulgación
Nos 25 anos da súa historia codificación de "Unicode" Recibín probablemente a máis difundida no mundo. Segundo este estándar son axustados como programas e páxinas web. A amplitude de aplicación pode indicar que Unicode agora usado por máis do 60% de internet recursos.
Agora, vostede sabe, cando o nivel de "Unicode" apareceu. Que é, tamén coñecer e ser capaz de apreciar o significado completo da invención, feita por un grupo de expertos Unicode Inc Máis de 25 anos.
Similar articles
Trending Now