Glossaire
Termes Unicode, encodage et typographie expliqués.
Alternatives textuelles WCAG (WCAG Text Alternatives)
Directive WCAG 1.1.1 exigeant des alternatives textuelles pour le contenu non textuel, y compris les symboles et les icônes.
AccessibilityApproche (Letter Spacing, Tracking)
Ajustement uniforme de l'espace entre tous les caractères d'un bloc de texte, distinct du crénage.
TypographyASCII
Code standard américain pour l'échange d'information — un encodage 7 bits pour 128 caractères incluant les lettres anglaises, chiffres et signes de ponctuation.
EncodingAttaque homographe IDN (IDN Homograph Attack)
Une technique de hameçonnage utilisant des caractères Unicode visuellement similaires dans les noms de domaine pour usurper des sites légitimes.
Programming & DevBase de données Unihan (Unihan Database)
Une base de données complète d'idéogrammes CJK avec lectures, significations et informations sur les variantes, maintenue par le Consortium Unicode.
Unicode StandardBloc Unicode (Unicode Block)
Une plage contiguë de points de code définie par le standard Unicode, regroupant des caractères apparentés (ex. : bloc « Flèches » : U+2190–U+21FF).
Unicode StandardCaractère combinatoire (Combining Character)
Un caractère Unicode qui modifie le caractère de base précédent, comme les accents et les signes diacritiques.
Unicode StandardCaractère de remplacement (Replacement Character)
Le caractère losange avec point d'interrogation (U+FFFD, �) affiché lorsqu'un décodeur rencontre une séquence d'octets invalide ou méconnaissable.
EncodingCaractères d'espacement (Whitespace)
Caractères représentant un espace horizontal ou vertical (espace, tabulation, saut de ligne, etc.) sans glyphe visible.
TypographyCaractères de tracé de cadre (Box Drawing)
Caractères Unicode (U+2500–U+257F) conçus pour dessiner des cadres et des tableaux dans les interfaces texte et les émulateurs de terminal.
TypographyCatégorie générale (General Category)
Une propriété Unicode qui classifie chaque caractère (ex. : Lu = Lettre majuscule, Sm = Symbole mathématique, So = Autre symbole).
Unicode StandardChaînes JavaScript et points de code (JS String & Code Points)
Méthodes String JS pour Unicode : codePointAt(), String.fromCodePoint() et l'opérateur spread pour l'itération des graphèmes.
Programming & DevCJK (Chinois, Japonais, Coréen)
Abréviation de Chinois, Japonais et Coréen — désigne l'ensemble unifié de caractères idéographiques partagés entre ces trois langues.
Unicode StandardClassement Unicode (Unicode Collation)
Tri du texte selon les règles spécifiques à chaque langue en utilisant l'algorithme de classement Unicode (UCA, UTS #10).
Programming & DevCode Alt (Alt Code)
Une méthode sous Windows pour saisir des caractères en maintenant Alt et en tapant un code numérique sur le pavé numérique (ex. : Alt+0169 pour ©).
Input MethodsConfusables (Homoglyphes)
Caractères qui se ressemblent ou sont identiques mais ont des points de code différents (ex. : « A » latin U+0041 vs « А » cyrillique U+0410).
Unicode StandardConsortium Unicode (Unicode Consortium)
L'organisation à but non lucratif qui développe et maintient le standard Unicode, ajoutant de nouveaux caractères dans les versions annuelles.
Unicode StandardCrénage (Kerning)
L'ajustement de l'espacement entre des paires de caractères spécifiques pour améliorer l'apparence visuelle (ex. : AV, To).
TypographyDétection d'encodage (Encoding Detection)
Techniques de détection de l'encodage des caractères de fichiers texte, incluant la détection du BOM, les heuristiques et les bibliothèques chardet.
Programming & DevÉchappements de propriétés Unicode (\p{})
Syntaxe regex (\p{Script=Greek}, \p{Letter}) qui fait correspondre les caractères par propriétés Unicode. Supportée en JS, Java, Python et plus.
Programming & DevÉditeur de méthode d'entrée (IME)
Logiciel permettant de saisir des caractères non directement disponibles sur le clavier, essentiel pour le CJK, l'arabe et d'autres systèmes d'écriture complexes.
Input MethodsEmoji
Symboles pictographiques définis dans Unicode, originaires des téléphones mobiles japonais, devenus un système universel de communication visuelle.
Unicode StandardEncodage URL (Percent-Encoding)
Une méthode d'encodage des caractères spéciaux dans les URL en les remplaçant par % suivi de deux chiffres hexadécimaux de leurs octets UTF-8.
Web & HTMLEntité HTML (HTML Entity)
Une chaîne commençant par & et se terminant par ; utilisée pour afficher des caractères réservés ou spéciaux en HTML (ex. : & pour &).
Web & HTMLEspace de largeur nulle (Zero-Width Space)
Un caractère Unicode invisible (U+200B) qui indique un point de césure possible sans afficher d'espace visible.
TypographyEspace insécable (Non-Breaking Space)
Un caractère d'espace (U+00A0) qui empêche le retour à la ligne automatique à sa position, gardant les mots adjacents ensemble.
TypographyGlyphe (Glyph)
La représentation visuelle d'un caractère tel que rendu par une police spécifique. Un caractère peut avoir plusieurs glyphes selon les polices.
TypographyGroupe de graphèmes (Grapheme Cluster)
Un caractère perçu par l'utilisateur pouvant être composé de plusieurs points de code (ex. : un caractère de base + marques combinatoires, ou un emoji drapeau).
Unicode StandardGuillemets typographiques (Curly Quotes)
Guillemets typographiquement corrects (“ ” ‘ ’) par opposition aux guillemets droits (" ').
TypographyJeu de caractères (Charset)
Un ensemble défini de caractères reconnus par un système informatique. Souvent utilisé de manière interchangeable avec « encodage », bien que techniquement différent.
EncodingJointeur de largeur nulle (Zero-Width Joiner, ZWJ)
Un caractère invisible (U+200D) qui joint les caractères adjacents, couramment utilisé dans les séquences emoji pour créer des emojis combinés.
Unicode StandardLabel ARIA (ARIA Label)
Un attribut HTML fournissant des noms accessibles aux éléments, essentiel pour rendre les interfaces riches en symboles utilisables avec les lecteurs d'écran.
Web & HTMLLatin-1 (ISO 8859-1)
Encodage mono-octet pour les langues d'Europe occidentale couvrant 256 caractères (U+0000–U+00FF).
EncodingLecteur d'écran (Screen Reader)
Technologie d'assistance qui lit le texte et les éléments d'interface à voix haute. Les noms de caractères Unicode sont utilisés pour la prononciation des symboles.
AccessibilityLigature
Un glyphe unique combinant deux caractères ou plus (ex. : fi, fl). Peut être typographique (fonction de police) ou un caractère Unicode.
TypographyLongueur de chaîne vs nombre de caractères (String Length vs Character Count)
Pourquoi str.length en JavaScript renvoie des unités de code UTF-16 et non des caractères visuels — et comment compter correctement les graphèmes.
Programming & DevMarque d'ordre des octets (Byte Order Mark, BOM)
Un caractère Unicode spécial (U+FEFF) au début d'un fichier indiquant l'ordre des octets et le format d'encodage.
EncodingModule unicodedata de Python (Python unicodedata)
Module de la bibliothèque standard Python pour rechercher les noms, catégories et propriétés des caractères Unicode.
Programming & DevMojibake (texte brouillé)
Texte brouillé résultant du décodage de données avec un mauvais encodage de caractères. Fréquent lors du mélange Latin-1 et UTF-8.
EncodingMotifs braille (Braille Patterns)
256 caractères Unicode (U+2800–U+28FF) représentant toutes les combinaisons possibles de cellules braille à 8 points.
AccessibilityNom de domaine internationalisé (IDN)
Un nom de domaine contenant des caractères non ASCII, encodé via Punycode pour la compatibilité DNS.
Web & HTMLNormalisation Unicode (Unicode Normalization)
Le processus de conversion du texte Unicode en forme standard (NFC, NFD, NFKC, NFKD) pour assurer une comparaison et un stockage cohérents.
EncodingPaire de substitution (Surrogate Pair)
Une paire d'unités de code 16 bits en UTF-16 qui représente ensemble un seul caractère en dehors du Plan Multilingue de Base (BMP).
EncodingPanneau emoji de Windows (Windows Emoji Panel)
Un utilitaire Windows (Win+. ou Win+;) pour parcourir et insérer des emojis et des caractères spéciaux.
Input MethodsPatron sandwich Unicode (Unicode Sandwich Pattern)
Une bonne pratique de programmation : décoder les octets → traiter le texte en Unicode → encoder en octets. Garde l'Unicode au milieu.
Programming & DevPlan Multilingue de Base (Basic Multilingual Plane, BMP)
Les 65 536 premiers points de code d'Unicode (U+0000 à U+FFFF), contenant les caractères les plus couramment utilisés.
Unicode StandardPlan Unicode (Unicode Plane)
Un groupe de 65 536 points de code consécutifs. Unicode comprend 17 plans (0–16), le Plan 0 étant le BMP.
Unicode StandardPleine largeur et demi-largeur (Fullwidth & Halfwidth)
Variantes de caractères occupant différentes largeurs en typographie CJK. Les caractères pleine largeur occupent le même espace que les idéogrammes CJK.
TypographyPoint de code (Code Point)
Une valeur numérique dans le standard Unicode correspondant à un caractère spécifique, écrite sous la forme U+ suivie de chiffres hexadécimaux.
Unicode StandardPoint de code vs caractère vs glyphe (Code Point vs Character vs Glyph)
Comprendre les trois niveaux d'abstraction : un point de code (nombre), un caractère (abstrait) et un glyphe (rendu visuel).
Programming & DevPoints de suspension (Ellipsis)
Un caractère unique (…, U+2026) représentant trois points, préféré à la saisie de trois points consécutifs.
TypographyPolices web (Web Fonts, @font-face)
Polices personnalisées chargées via les règles CSS @font-face, permettant une typographie riche au-delà des polices installées sur le système.
Web & HTMLPropriété CSS content (CSS content Property)
Une propriété CSS qui insère du contenu avant ou après un élément, couramment utilisée avec des séquences d'échappement Unicode.
Web & HTMLPuce (Bullet Character)
Un symbole typographique (•, U+2022) utilisé pour les éléments de liste et la décoration de texte.
TypographyPunycode
Une syntaxe d'encodage pour représenter des chaînes Unicode avec des caractères ASCII, utilisée dans les noms de domaine internationalisés.
Web & HTMLRéférence de caractère (Character Reference)
Un balisage HTML pour insérer des caractères par numéro (☃) ou par nom (©), utilisé pour les caractères spéciaux ou réservés.
Web & HTMLRéférentiel commun de données de localisation (CLDR)
Un projet fournissant des règles de formatage spécifiques aux locales pour les dates, devises et noms de langues utilisés dans le monde entier.
Unicode StandardRepli de police (Font Fallback)
Un mécanisme où le navigateur utilise des polices alternatives lorsque la police principale ne possède pas le glyphe d'un caractère.
TypographySaisie hexadécimale Unicode (Unicode Hex Input)
Une disposition de clavier macOS permettant de saisir des caractères en maintenant Option et en tapant le code hexadécimal du point de code.
Input MethodsScript (système d'écriture)
Une propriété Unicode indiquant à quel système d'écriture appartient un caractère (ex. : Latin, Grec, Commun, Hérité).
Unicode StandardSegmentation des graphèmes (Grapheme Segmentation, UAX #29)
L'algorithme Unicode pour diviser le texte en caractères perçus par l'utilisateur, gérant les séquences emoji, les marques combinatoires, etc.
Programming & DevSélecteur de variante (Variation Selector)
Caractères Unicode (U+FE00–U+FE0F) qui modifient l'apparence du caractère précédent, y compris la présentation texte versus emoji.
Unicode StandardSéquence d'échappement Unicode (Unicode Escape Sequence)
Un moyen de représenter des caractères par leur point de code dans les langages de programmation (\u2603 en JS/Java, \u{2603} en ES6+, \U00002603 en Python).
EncodingSigne diacritique (Diacritical Mark)
Une marque ajoutée à une lettre pour modifier sa prononciation ou sa signification (ex. : accent aigu é, tréma ü, tilde ñ).
TypographySupport Unicode des Regex (Regex Unicode Support)
Utilisation d'expressions régulières compatibles Unicode avec des drapeaux comme /u en JS et re.UNICODE en Python.
Programming & DevSymboles alphanumériques mathématiques (Mathematical Alphanumeric Symbols)
Bloc Unicode (U+1D400–U+1D7FF) contenant des lettres et chiffres stylisés utilisés en notation mathématique.
Unicode StandardTexte alternatif pour les symboles (Alt Text for Symbols)
Bonnes pratiques pour fournir des alternatives textuelles accessibles aux caractères symboliques décoratifs et significatifs.
AccessibilityTexte bidirectionnel (Bidirectional Text, Bidi)
Texte mélangeant les directions d'écriture de gauche à droite et de droite à gauche, nécessitant l'algorithme bidirectionnel Unicode pour un affichage correct.
Unicode StandardTiret cadratin (Em Dash)
Un tiret typographique (—, U+2014) de la largeur de la lettre M, utilisé pour les incises et les ruptures de pensée.
TypographyTiret demi-cadratin (En Dash)
Un tiret typographique (–, U+2013) de la largeur de la lettre N, utilisé pour les intervalles (ex. : 1–10) et les relations.
TypographyTofu (glyphe manquant)
Le rectangle vide (□) affiché lorsqu'une police ne peut pas rendre un caractère, nommé ainsi pour sa ressemblance avec le tofu.
TypographyTouche Compose (Compose Key)
Une touche sur les systèmes Linux/Unix qui initie une séquence multi-touches pour produire des caractères spéciaux (ex. : Compose + c + o → ©).
Input MethodsTouches mortes (Dead Keys)
Touches du clavier qui ne produisent pas immédiatement un caractère mais modifient la frappe suivante (ex. : ´ puis e → é).
Input MethodsTrait d'union conditionnel (Soft Hyphen)
Un caractère invisible (U+00AD) qui marque où un mot peut être coupé par un trait d'union en fin de ligne. Invisible autrement.
TypographyUnicode
Un standard universel d'encodage de caractères qui attribue un numéro unique (point de code) à chaque caractère de tous les systèmes d'écriture.
Unicode StandardUnicode dans les URL et IRI (Unicode in URLs & IRIs)
Comment les caractères Unicode sont gérés dans les URL : IRI (RFC 3987), encodage en pourcentage des octets UTF-8 et affichage dans les navigateurs.
Programming & Devunicode-range (CSS)
Un descripteur CSS qui spécifie la plage de points de code Unicode couverte par une police web, permettant le sous-ensemble de polices.
Web & HTMLUTF-16
Encodage de caractères utilisant 2 ou 4 octets par caractère. Utilisé en interne par JavaScript et Java.
EncodingUTF-32
Encodage à largeur fixe utilisant 4 octets par caractère, simple mais gourmand en mémoire.
EncodingUTF-8
Encodage de caractères à largeur variable utilisant 1 à 4 octets pour représenter les points de code Unicode. C'est l'encodage dominant sur le web.
EncodingVersion Unicode (Unicode Version)
Versions numérotées du standard Unicode (ex. : 16.0), chacune ajoutant de nouveaux caractères, scripts et emojis.
Unicode StandardVisualiseur de caractères macOS (macOS Character Viewer)
Un utilitaire intégré à macOS (Ctrl+Cmd+Espace) pour parcourir et insérer des caractères Unicode et des emojis.
Input MethodsWindows-1252
Un sur-ensemble de Latin-1 utilisé par défaut dans les applications Windows héritées, avec des caractères supplémentaires dans la plage 0x80–0x9F.
EncodingZone d'utilisation privée (Private Use Area)
Plages de points de code Unicode (U+E000–U+F8FF, etc.) réservées aux caractères personnalisés définis par les fournisseurs de polices ou les applications.
Unicode Standard