Glosario

Términos de Unicode, codificación y tipografía explicados.

Todos Encoding Unicode Standard Typography Input Methods Web & HTML Accessibility Programming & Dev

ASCII

Código Estándar Americano para el Intercambio de Información: codificación de 7 bits para 128 caracteres, incluyendo letras inglesas, dígitos y signos de puntuación.

Encoding

Carácter de reemplazo (Replacement Character)

El carácter de diamante con interrogación (U+FFFD, �) que se muestra cuando un decodificador encuentra una secuencia de bytes inválida o irreconocible.

Encoding

Conjunto de caracteres (Charset)

Un conjunto definido de caracteres reconocidos por un sistema informático. A menudo se usa indistintamente con 'codificación', aunque técnicamente son conceptos diferentes.

Encoding

Latin-1 (ISO 8859-1)

Codificación de un solo byte para idiomas de Europa occidental que cubre 256 caracteres (U+0000–U+00FF).

Encoding

Marca de orden de bytes (Byte Order Mark, BOM)

Un carácter Unicode especial (U+FEFF) al inicio de un archivo que indica su orden de bytes y formato de codificación.

Encoding

Mojibake (texto ilegible)

Texto ilegible que resulta de decodificar datos con la codificación de caracteres incorrecta. Común al mezclar Latin-1 y UTF-8.

Encoding

Normalización Unicode (Unicode Normalization)

El proceso de convertir texto Unicode a una forma estándar (NFC, NFD, NFKC, NFKD) para garantizar una comparación y almacenamiento consistentes.

Encoding

Par sustituto (Surrogate Pair)

Un par de unidades de código de 16 bits en UTF-16 que juntas representan un único carácter fuera del Plano Multilingüe Básico (BMP).

Encoding

Secuencia de escape Unicode (Unicode Escape Sequence)

Una forma de representar caracteres por su punto de código en lenguajes de programación (\u2603 en JS/Java, \u{2603} en ES6+, \U00002603 en Python).

Encoding

UTF-16

Codificación de caracteres que utiliza 2 o 4 bytes por carácter. Se usa internamente en JavaScript y Java.

Encoding

UTF-32

Codificación de ancho fijo que utiliza 4 bytes por carácter, simple pero con alto consumo de memoria.

Encoding

UTF-8

Codificación de caracteres de ancho variable que utiliza de 1 a 4 bytes para representar puntos de código Unicode. Es la codificación dominante en la web.

Encoding

Windows-1252

Un superconjunto de Latin-1 usado por defecto en aplicaciones legacy de Windows, con caracteres adicionales en el rango 0x80–0x9F.

Encoding