Glossaire Unicode et typographie — Key Terms

Alternatives textuelles WCAG (WCAG Text Alternatives)

Directive WCAG 1.1.1 exigeant des alternatives textuelles pour le contenu non textuel, y compris les symboles et les icônes.

Accessibility

Approche (Letter Spacing, Tracking)

Ajustement uniforme de l'espace entre tous les caractères d'un bloc de texte, distinct du crénage.

Typography

ASCII

Code standard américain pour l'échange d'information — un encodage 7 bits pour 128 caractères incluant les lettres anglaises, chiffres et signes de ponctuation.

Encoding

Attaque homographe IDN (IDN Homograph Attack)

Une technique de hameçonnage utilisant des caractères Unicode visuellement similaires dans les noms de domaine pour usurper des sites légitimes.

Programming & Dev

Base de données Unihan (Unihan Database)

Une base de données complète d'idéogrammes CJK avec lectures, significations et informations sur les variantes, maintenue par le Consortium Unicode.

Unicode Standard

Bloc Unicode (Unicode Block)

Une plage contiguë de points de code définie par le standard Unicode, regroupant des caractères apparentés (ex. : bloc « Flèches » : U+2190–U+21FF).

Unicode Standard

Caractère combinatoire (Combining Character)

Un caractère Unicode qui modifie le caractère de base précédent, comme les accents et les signes diacritiques.

Unicode Standard

Caractère de remplacement (Replacement Character)

Le caractère losange avec point d'interrogation (U+FFFD, �) affiché lorsqu'un décodeur rencontre une séquence d'octets invalide ou méconnaissable.

Encoding

Caractères d'espacement (Whitespace)

Caractères représentant un espace horizontal ou vertical (espace, tabulation, saut de ligne, etc.) sans glyphe visible.

Typography

Caractères de tracé de cadre (Box Drawing)

Caractères Unicode (U+2500–U+257F) conçus pour dessiner des cadres et des tableaux dans les interfaces texte et les émulateurs de terminal.

Typography

Catégorie générale (General Category)

Une propriété Unicode qui classifie chaque caractère (ex. : Lu = Lettre majuscule, Sm = Symbole mathématique, So = Autre symbole).

Unicode Standard

Chaînes JavaScript et points de code (JS String & Code Points)

Méthodes String JS pour Unicode : codePointAt(), String.fromCodePoint() et l'opérateur spread pour l'itération des graphèmes.

Programming & Dev

CJK (Chinois, Japonais, Coréen)

Abréviation de Chinois, Japonais et Coréen — désigne l'ensemble unifié de caractères idéographiques partagés entre ces trois langues.

Unicode Standard

Classement Unicode (Unicode Collation)

Tri du texte selon les règles spécifiques à chaque langue en utilisant l'algorithme de classement Unicode (UCA, UTS #10).

Programming & Dev

Code Alt (Alt Code)

Une méthode sous Windows pour saisir des caractères en maintenant Alt et en tapant un code numérique sur le pavé numérique (ex. : Alt+0169 pour ©).

Input Methods

Confusables (Homoglyphes)

Caractères qui se ressemblent ou sont identiques mais ont des points de code différents (ex. : « A » latin U+0041 vs « А » cyrillique U+0410).

Unicode Standard

Consortium Unicode (Unicode Consortium)

L'organisation à but non lucratif qui développe et maintient le standard Unicode, ajoutant de nouveaux caractères dans les versions annuelles.

Unicode Standard

Crénage (Kerning)

L'ajustement de l'espacement entre des paires de caractères spécifiques pour améliorer l'apparence visuelle (ex. : AV, To).

Typography

Détection d'encodage (Encoding Detection)

Techniques de détection de l'encodage des caractères de fichiers texte, incluant la détection du BOM, les heuristiques et les bibliothèques chardet.

Programming & Dev

Échappements de propriétés Unicode (\p{})

Syntaxe regex (\p{Script=Greek}, \p{Letter}) qui fait correspondre les caractères par propriétés Unicode. Supportée en JS, Java, Python et plus.

Programming & Dev

Éditeur de méthode d'entrée (IME)

Logiciel permettant de saisir des caractères non directement disponibles sur le clavier, essentiel pour le CJK, l'arabe et d'autres systèmes d'écriture complexes.

Input Methods

Emoji

Symboles pictographiques définis dans Unicode, originaires des téléphones mobiles japonais, devenus un système universel de communication visuelle.

Unicode Standard

Encodage URL (Percent-Encoding)

Une méthode d'encodage des caractères spéciaux dans les URL en les remplaçant par % suivi de deux chiffres hexadécimaux de leurs octets UTF-8.

Web & HTML

Entité HTML (HTML Entity)

Une chaîne commençant par & et se terminant par ; utilisée pour afficher des caractères réservés ou spéciaux en HTML (ex. : & pour &).

Web & HTML

Espace de largeur nulle (Zero-Width Space)

Un caractère Unicode invisible (U+200B) qui indique un point de césure possible sans afficher d'espace visible.

Typography

Espace insécable (Non-Breaking Space)

Un caractère d'espace (U+00A0) qui empêche le retour à la ligne automatique à sa position, gardant les mots adjacents ensemble.

Typography

Glyphe (Glyph)

La représentation visuelle d'un caractère tel que rendu par une police spécifique. Un caractère peut avoir plusieurs glyphes selon les polices.

Typography

Groupe de graphèmes (Grapheme Cluster)

Un caractère perçu par l'utilisateur pouvant être composé de plusieurs points de code (ex. : un caractère de base + marques combinatoires, ou un emoji drapeau).

Unicode Standard

Guillemets typographiques (Curly Quotes)

Guillemets typographiquement corrects (“ ” ‘ ’) par opposition aux guillemets droits (" ').

Typography

Jeu de caractères (Charset)

Un ensemble défini de caractères reconnus par un système informatique. Souvent utilisé de manière interchangeable avec « encodage », bien que techniquement différent.

Encoding

Jointeur de largeur nulle (Zero-Width Joiner, ZWJ)

Un caractère invisible (U+200D) qui joint les caractères adjacents, couramment utilisé dans les séquences emoji pour créer des emojis combinés.

Unicode Standard

Label ARIA (ARIA Label)

Un attribut HTML fournissant des noms accessibles aux éléments, essentiel pour rendre les interfaces riches en symboles utilisables avec les lecteurs d'écran.

Web & HTML

Latin-1 (ISO 8859-1)

Encodage mono-octet pour les langues d'Europe occidentale couvrant 256 caractères (U+0000–U+00FF).

Encoding

Lecteur d'écran (Screen Reader)

Technologie d'assistance qui lit le texte et les éléments d'interface à voix haute. Les noms de caractères Unicode sont utilisés pour la prononciation des symboles.

Accessibility

Ligature

Un glyphe unique combinant deux caractères ou plus (ex. : fi, fl). Peut être typographique (fonction de police) ou un caractère Unicode.

Typography

Longueur de chaîne vs nombre de caractères (String Length vs Character Count)

Pourquoi str.length en JavaScript renvoie des unités de code UTF-16 et non des caractères visuels — et comment compter correctement les graphèmes.

Programming & Dev

Marque d'ordre des octets (Byte Order Mark, BOM)

Un caractère Unicode spécial (U+FEFF) au début d'un fichier indiquant l'ordre des octets et le format d'encodage.

Encoding

Module unicodedata de Python (Python unicodedata)

Module de la bibliothèque standard Python pour rechercher les noms, catégories et propriétés des caractères Unicode.

Programming & Dev

Mojibake (texte brouillé)

Texte brouillé résultant du décodage de données avec un mauvais encodage de caractères. Fréquent lors du mélange Latin-1 et UTF-8.

Encoding

Motifs braille (Braille Patterns)

256 caractères Unicode (U+2800–U+28FF) représentant toutes les combinaisons possibles de cellules braille à 8 points.

Accessibility

Nom de domaine internationalisé (IDN)

Un nom de domaine contenant des caractères non ASCII, encodé via Punycode pour la compatibilité DNS.

Web & HTML

Normalisation Unicode (Unicode Normalization)

Le processus de conversion du texte Unicode en forme standard (NFC, NFD, NFKC, NFKD) pour assurer une comparaison et un stockage cohérents.

Encoding

Paire de substitution (Surrogate Pair)

Une paire d'unités de code 16 bits en UTF-16 qui représente ensemble un seul caractère en dehors du Plan Multilingue de Base (BMP).

Encoding

Panneau emoji de Windows (Windows Emoji Panel)

Un utilitaire Windows (Win+. ou Win+;) pour parcourir et insérer des emojis et des caractères spéciaux.

Input Methods

Patron sandwich Unicode (Unicode Sandwich Pattern)

Une bonne pratique de programmation : décoder les octets → traiter le texte en Unicode → encoder en octets. Garde l'Unicode au milieu.

Programming & Dev

Plan Multilingue de Base (Basic Multilingual Plane, BMP)

Les 65 536 premiers points de code d'Unicode (U+0000 à U+FFFF), contenant les caractères les plus couramment utilisés.

Unicode Standard

Plan Unicode (Unicode Plane)

Un groupe de 65 536 points de code consécutifs. Unicode comprend 17 plans (0–16), le Plan 0 étant le BMP.

Unicode Standard

Pleine largeur et demi-largeur (Fullwidth & Halfwidth)

Variantes de caractères occupant différentes largeurs en typographie CJK. Les caractères pleine largeur occupent le même espace que les idéogrammes CJK.

Typography

Point de code (Code Point)

Une valeur numérique dans le standard Unicode correspondant à un caractère spécifique, écrite sous la forme U+ suivie de chiffres hexadécimaux.

Unicode Standard

Point de code vs caractère vs glyphe (Code Point vs Character vs Glyph)

Comprendre les trois niveaux d'abstraction : un point de code (nombre), un caractère (abstrait) et un glyphe (rendu visuel).

Programming & Dev

Points de suspension (Ellipsis)

Un caractère unique (…, U+2026) représentant trois points, préféré à la saisie de trois points consécutifs.

Typography

Polices web (Web Fonts, @font-face)

Polices personnalisées chargées via les règles CSS @font-face, permettant une typographie riche au-delà des polices installées sur le système.

Web & HTML

Propriété CSS content (CSS content Property)

Une propriété CSS qui insère du contenu avant ou après un élément, couramment utilisée avec des séquences d'échappement Unicode.

Web & HTML

Puce (Bullet Character)

Un symbole typographique (•, U+2022) utilisé pour les éléments de liste et la décoration de texte.

Typography

Punycode

Une syntaxe d'encodage pour représenter des chaînes Unicode avec des caractères ASCII, utilisée dans les noms de domaine internationalisés.

Web & HTML

Référence de caractère (Character Reference)

Un balisage HTML pour insérer des caractères par numéro (☃) ou par nom (©), utilisé pour les caractères spéciaux ou réservés.

Web & HTML

Référentiel commun de données de localisation (CLDR)

Un projet fournissant des règles de formatage spécifiques aux locales pour les dates, devises et noms de langues utilisés dans le monde entier.

Unicode Standard

Repli de police (Font Fallback)

Un mécanisme où le navigateur utilise des polices alternatives lorsque la police principale ne possède pas le glyphe d'un caractère.

Typography

Saisie hexadécimale Unicode (Unicode Hex Input)

Une disposition de clavier macOS permettant de saisir des caractères en maintenant Option et en tapant le code hexadécimal du point de code.

Input Methods

Script (système d'écriture)

Une propriété Unicode indiquant à quel système d'écriture appartient un caractère (ex. : Latin, Grec, Commun, Hérité).

Unicode Standard

Segmentation des graphèmes (Grapheme Segmentation, UAX #29)

L'algorithme Unicode pour diviser le texte en caractères perçus par l'utilisateur, gérant les séquences emoji, les marques combinatoires, etc.

Programming & Dev

Sélecteur de variante (Variation Selector)

Caractères Unicode (U+FE00–U+FE0F) qui modifient l'apparence du caractère précédent, y compris la présentation texte versus emoji.

Unicode Standard

Séquence d'échappement Unicode (Unicode Escape Sequence)

Un moyen de représenter des caractères par leur point de code dans les langages de programmation (\u2603 en JS/Java, \u{2603} en ES6+, \U00002603 en Python).

Encoding

Signe diacritique (Diacritical Mark)

Une marque ajoutée à une lettre pour modifier sa prononciation ou sa signification (ex. : accent aigu é, tréma ü, tilde ñ).

Typography

Support Unicode des Regex (Regex Unicode Support)

Utilisation d'expressions régulières compatibles Unicode avec des drapeaux comme /u en JS et re.UNICODE en Python.

Programming & Dev

Symboles alphanumériques mathématiques (Mathematical Alphanumeric Symbols)

Bloc Unicode (U+1D400–U+1D7FF) contenant des lettres et chiffres stylisés utilisés en notation mathématique.

Unicode Standard

Texte alternatif pour les symboles (Alt Text for Symbols)

Bonnes pratiques pour fournir des alternatives textuelles accessibles aux caractères symboliques décoratifs et significatifs.

Accessibility

Texte bidirectionnel (Bidirectional Text, Bidi)

Texte mélangeant les directions d'écriture de gauche à droite et de droite à gauche, nécessitant l'algorithme bidirectionnel Unicode pour un affichage correct.

Unicode Standard

Tiret cadratin (Em Dash)

Un tiret typographique (—, U+2014) de la largeur de la lettre M, utilisé pour les incises et les ruptures de pensée.

Typography

Tiret demi-cadratin (En Dash)

Un tiret typographique (–, U+2013) de la largeur de la lettre N, utilisé pour les intervalles (ex. : 1–10) et les relations.

Typography

Tofu (glyphe manquant)

Le rectangle vide (□) affiché lorsqu'une police ne peut pas rendre un caractère, nommé ainsi pour sa ressemblance avec le tofu.

Typography

Touche Compose (Compose Key)

Une touche sur les systèmes Linux/Unix qui initie une séquence multi-touches pour produire des caractères spéciaux (ex. : Compose + c + o → ©).

Input Methods

Touches mortes (Dead Keys)

Touches du clavier qui ne produisent pas immédiatement un caractère mais modifient la frappe suivante (ex. : ´ puis e → é).

Input Methods

Trait d'union conditionnel (Soft Hyphen)

Un caractère invisible (U+00AD) qui marque où un mot peut être coupé par un trait d'union en fin de ligne. Invisible autrement.

Typography

Unicode

Un standard universel d'encodage de caractères qui attribue un numéro unique (point de code) à chaque caractère de tous les systèmes d'écriture.

Unicode Standard

Unicode dans les URL et IRI (Unicode in URLs & IRIs)

Comment les caractères Unicode sont gérés dans les URL : IRI (RFC 3987), encodage en pourcentage des octets UTF-8 et affichage dans les navigateurs.

Programming & Dev

unicode-range (CSS)

Un descripteur CSS qui spécifie la plage de points de code Unicode couverte par une police web, permettant le sous-ensemble de polices.

Web & HTML

UTF-16

Encodage de caractères utilisant 2 ou 4 octets par caractère. Utilisé en interne par JavaScript et Java.

Encoding

UTF-32

Encodage à largeur fixe utilisant 4 octets par caractère, simple mais gourmand en mémoire.

Encoding

UTF-8

Encodage de caractères à largeur variable utilisant 1 à 4 octets pour représenter les points de code Unicode. C'est l'encodage dominant sur le web.

Encoding

Version Unicode (Unicode Version)

Versions numérotées du standard Unicode (ex. : 16.0), chacune ajoutant de nouveaux caractères, scripts et emojis.

Unicode Standard

Visualiseur de caractères macOS (macOS Character Viewer)

Un utilitaire intégré à macOS (Ctrl+Cmd+Espace) pour parcourir et insérer des caractères Unicode et des emojis.

Input Methods

Windows-1252

Un sur-ensemble de Latin-1 utilisé par défaut dans les applications Windows héritées, avec des caractères supplémentaires dans la plage 0x80–0x9F.

Encoding

Zone d'utilisation privée (Private Use Area)

Plages de points de code Unicode (U+E000–U+F8FF, etc.) réservées aux caractères personnalisés définis par les fournisseurs de polices ou les applications.

Unicode Standard