Qué es ASCII, UNICODE y UTF-8. La Pc es una gran calculadora, todo lo que hace es realizar cálculos con números. No puede entender un texto. Por lo tanto, los códigos son formas de transformar la información de texto en datos numéricos, entendibles por la PC.

Qué es ASCII, UNICODE y UTF-8: códigos

El ASCII

Hay diferentes códigos El más conocido es el código ASCII (Código estándar estadounidense para el intercambio de información). Este es un estándar estadounidense, pero es uno de los más utilizados en el mundo. El código ASCII define con precisión la correspondencia entre símbolos y números hasta el número 127.

Entonces, se usa el número 97 para representar la «a». Para representar el ?, se usa el código 63. Algunos de ellos (menos de 32) son códigos de control y no deben mostrarse. Por ejemplo, el código 10 omite la línea, el código 7 emite pitidos en la Pc, entre otras funciones.

¿Pero y los caracteres acentuados? Sí, los estadounidenses no pensaban en el resto del mundo. A menudo usamos códigos 128 a 255 para acentos, pero los códigos difieren de un país a otro. No es práctico para intercambiar documentos. Así que tuvimos que encontrar un código más práctico: UNICODE.

UNICODE

En lugar de usar solo códigos del 0 al 127, UNICODE usa códigos de valores mucho mayores. Con eso, puede representar todos los caracteres específicos de varios idiomas. Los nuevos códigos se asignan regularmente a nuevos caracteres como el latín (acentuado o no), griego, cirílico, armenio, hebreo, tailandés, hiragana, katakana, etc. Solo el alfabeto chino Kanji contiene 6.879 caracteres.

UNICODE define una correspondencia entre símbolos y números. Incluso si UNICODE estaba bien desarrollado, se usó poco en comparación con ASCII. Así que, no le envíe a alguien un mensaje UNICODE: probablemente no podrá leerlo. Incluso para los programadores, no siempre es fácil de manipular.

Aunque, podemos decir que, este patrón está creciendo más y más. Los idiomas Java y Python ya son compatible con UNICODE. La mayoría de los sistemas operativos (Windows, Linux, MacOS X, etc.) también son capaces de leerlo.

UNICODE en la práctica: UTF-8

En teoría, UNICODE es muy bueno. Pero en la práctica la historia es diferente. Por lo general, en UNICODE, un caracter usa 2 bytes. En otras palabras, cualquier texto usa el doble de espacio que en ASCII. Es un desperdicio. Los caracteres que requieren UNICODE son raros. Pero hay un truco: el UTF-8.

Un texto en UTF-8 es simple, está hecho completamente en ASCII, y cuando necesitamos un carácter UNICODE, usamos un carácter especial, que dice ‘Atención, el siguiente carácter está en UNICODE’. De todos modos, para ser más rigurosos, indicamos el comienzo del archivo, que está en UTF-8, con caracteres especiales.

UTF-8 reúne la eficiencia de ASCII y el alcance de UNICODE. De hecho, UTF-8 ha sido adoptado como el estándar para codificar archivos XML. La mayoría de los navegadores actuales también admiten UTF-8 y lo detectan automáticamente en páginas HTML.

Cómo hacer en páginas web

Si ingresas directamente el ‘si</bold’> en una página web, esto no es bueno. Debe elegir una de estas tres soluciones:

Use entidades HTML y ponga ‘> está ‘en lugar de’si‘;

Deja el ‘si‘ de todos modos y especifique la codificación de caracteres que usará al principio del archivo HTML (en la etiqueta Head):

meta http-equiv="Content-type" content="text/html; charset=ISO-8859-1"

(ISO-8859-1 es el conjunto de caracteres latinos que se ejecuta en Windows)

Trabaje directamente en UTF-8 en su editor HTML (si es posible). Luego agregue:

meta http-equiv="Content-type" content="text/html; charset=UTF-8"

ISO-8859-1 es adecuado para la mayoría de los idiomas latinos u occidentales (inglés, francés, alemán, español, etc.) y UTF-8 será indispensable para otros idiomas (japonés, hebreo, etc.).

Debe elegir una de estas tres opciones para satisfacer sus necesidades.