Unicode 与排版术语表 — Key Terms

Alt码 (Alt Code)

在Windows中按住Alt键并在数字键盘上输入数字代码来输入字符的方法（例如：Alt+0169 → ©）。

Input Methods

ARIA标签 (ARIA Label)

为元素提供无障碍名称的HTML属性，对于使符号密集的UI可被屏幕阅读器使用至关重要。

Web & HTML

ASCII

美国信息交换标准代码——一种7位编码，包含128个字符，涵盖英文字母、数字和标点符号。

Encoding

CJK（中日韩）

中文、日文、韩文的缩写，指这三种语言共享的统一表意文字集合。

Unicode Standard

CSS content属性 (CSS content Property)

在元素前后插入内容的CSS属性，常与Unicode转义序列配合使用。

Web & HTML

HTML实体 (HTML Entity)

以&开头并以;结尾的字符串，用于在HTML中显示保留字符或特殊字符（例如：& → &）。

Web & HTML

IDN同形异义攻击 (IDN Homograph Attack)

一种钓鱼技术，利用域名中视觉上相似的Unicode字符来冒充合法网站。

Programming & Dev

JavaScript字符串与码位 (JS String & Code Points)

用于Unicode的JS String方法：codePointAt()、String.fromCodePoint()以及用于字素迭代的展开运算符。

Programming & Dev

Latin-1 (ISO 8859-1)

面向西欧语言的单字节编码，涵盖256个字符（U+0000至U+00FF）。

Encoding

macOS字符检视器 (macOS Character Viewer)

macOS内置工具（Ctrl+Cmd+Space），用于浏览和插入Unicode字符及Emoji。

Input Methods

Punycode（国际化域名编码）

一种用ASCII字符表示Unicode字符串的编码语法，用于国际化域名（IDN）。

Web & HTML

Python unicodedata模块 (Python unicodedata)

用于查询Unicode字符名称、类别和属性的Python标准库模块。

Programming & Dev

unicode-range (CSS)

指定Web字体所涵盖的Unicode码位范围的CSS描述符，可实现字体子集化。

Web & HTML

Unicode三明治模式 (Unicode Sandwich Pattern)

一种编程最佳实践：解码字节 → 以Unicode处理文本 → 编码为字节。

Programming & Dev

Unicode区段 (Unicode Block)

Unicode标准定义的连续码位范围，用于将相关字符分组（例如'箭头'区段：U+2190~U+21FF）。

Unicode Standard

Unicode十六进制输入 (Unicode Hex Input)

一种macOS键盘布局，允许按住Option键并输入十六进制码位来输入字符。

Input Methods

Unicode属性转义 (\p{})

通过Unicode属性匹配字符的正则表达式语法（\p{Script=Greek}、\p{Letter}），JS、Java、Python等均支持。

Programming & Dev

Unicode平面 (Unicode Plane)

由65,536个连续码位组成的分组。Unicode共有17个平面（0至16），其中平面0为BMP。

Unicode Standard

Unicode排序 (Unicode Collation)

使用Unicode排序算法（UCA，UTS #10）按照语言特定规则对文本进行排序。

Programming & Dev

Unicode版本 (Unicode Version)

Unicode标准的编号发布版本（如16.0），每个版本添加新字符、文字系统和Emoji。

Unicode Standard

Unicode (统一码)

一种通用字符编码标准，为所有书写系统中的每个字符分配唯一的数字（码位）。

Unicode Standard

Unicode联盟 (Unicode Consortium)

开发和维护Unicode标准的非营利组织，每年通过新版本添加新字符。

Unicode Standard

Unicode规范化 (Unicode Normalization)

将Unicode文本转换为标准形式（NFC、NFD、NFKC、NFKD）以确保一致比较和存储的过程。

Encoding

Unicode转义序列 (Unicode Escape Sequence)

在编程语言中通过码位表示字符的方法（JS/Java: \u2603，ES6+: \u{2603}，Python: \U00002603）。

Encoding

Unihan数据库 (Unihan Database)

由Unicode联盟维护的CJK表意文字综合数据库，包含读音、释义和异体字信息。

Unicode Standard

URL中的Unicode (Unicode in URLs & IRIs)

URL中Unicode字符的处理方式：IRI（RFC 3987）、UTF-8字节的百分比编码及浏览器显示。

Programming & Dev

URL编码 (Percent-Encoding)

在URL中将特殊字符替换为其UTF-8字节的十六进制表示并以%为前缀的编码方法。

Web & HTML

UTF-16

每个字符使用2或4个字节的字符编码，JavaScript和Java内部使用此编码。

Encoding

UTF-32

每个字符使用4个字节的固定宽度编码，简单但内存占用较大。

Encoding

UTF-8

一种使用1到4个字节表示Unicode码位的可变宽度字符编码，是互联网上最主流的编码方式。

Encoding

WCAG文本替代 (WCAG Text Alternatives)

WCAG 1.1.1指南，要求为包括符号和图标在内的非文本内容提供文本替代方案。

Accessibility

Web字体 (Web Fonts, @font-face)

通过CSS @font-face规则加载的自定义字体，使排版不再局限于系统预装字体。

Web & HTML

Windows-1252

旧版Windows应用程序默认使用的Latin-1超集，在0x80–0x9F范围内包含额外字符。

Encoding

Windows表情符号面板 (Windows Emoji Panel)

用于浏览和插入Emoji及特殊字符的Windows工具（Win+.或Win+;）。

Input Methods

一般类别 (General Category)

对每个字符进行分类的Unicode属性（例如：Lu = 大写字母，Sm = 数学符号，So = 其他符号）。

Unicode Standard

不间断空格 (Non-Breaking Space)

一种空格字符（U+00A0），防止在该位置自动换行，使相邻的词保持在一起。

Typography

乱码 (Mojibake)

用错误的字符编码解码数据时产生的乱码文本。在混用Latin-1和UTF-8时尤为常见。

Encoding

代理对 (Surrogate Pair)

UTF-16中用于表示基本多文种平面（BMP）以外单个字符的一对16位码元。

Encoding

全角与半角 (Fullwidth & Halfwidth)

CJK排版中占据不同宽度的字符变体。全角字符占据与CJK表意文字相同的空间。

Typography

制表符 (Box Drawing Characters)

用于在文本界面和终端模拟器中绘制方框和表格的Unicode字符（U+2500至U+257F）。

Typography

双向文本 (Bidirectional Text, Bidi)

混合从左到右和从右到左书写方向的文本，需要Unicode双向算法来正确显示。

Unicode Standard

变体选择符 (Variation Selector)

修改前一个字符外观的Unicode字符（U+FE00至U+FE0F），包括文本与Emoji显示方式的切换。

Unicode Standard

变音符号 (Diacritical Mark)

添加到字母上以改变其发音或含义的标记（例如：锐音符 é、分音符 ü、波浪号 ñ）。

Typography

国际化域名 (IDN)

包含非ASCII字符的域名，通过Punycode编码以兼容DNS。

Web & HTML

基本多文种平面 (Basic Multilingual Plane, BMP)

Unicode的前65,536个码位（U+0000至U+FFFF），包含最常用的字符。

Unicode Standard

字体回退 (Font Fallback)

当主字体缺少某个字符的字形时，浏览器使用替代字体的机制。

Typography

字形 (Glyph)

由特定字体渲染的字符的视觉表现形式。一个字符在不同字体中可能有多种字形。

Typography

字符串长度与字符数 (String Length vs Character Count)

JavaScript中str.length返回UTF-16码元数而非可见字符数的原因，以及如何正确计算字素。

Programming & Dev

字符引用 (Character Reference)

通过数字（☃）或名称（©）插入字符的HTML标记，用于特殊字符或保留字符。

Web & HTML

字符集 (Character Set, Charset)

计算机系统所识别的一组已定义字符。虽然常与'编码'互换使用，但严格来说两者是不同的概念。

Encoding

字素分割 (Grapheme Segmentation, UAX #29)

将文本按用户感知的字符单位分割的Unicode算法，可处理Emoji序列、组合标记等。

Programming & Dev

字素簇 (Grapheme Cluster)

用户感知的字符单位，可能由多个码位组成（例如：基础字符+组合标记、国旗Emoji等）。

Unicode Standard

字节顺序标记 (Byte Order Mark, BOM)

位于文件开头的特殊Unicode字符（U+FEFF），用于指示文件的字节序和编码格式。

Encoding

字距 (Letter Spacing, Tracking)

对文本块中所有字符之间的间距进行统一调整，与字距调整（Kerning）不同。

Typography

字距调整 (Kerning)

为改善视觉效果而对特定字符对之间的间距进行调整（如AV、To）。

Typography

屏幕阅读器 (Screen Reader)

将文本和UI元素朗读出来的辅助技术。Unicode字符名称用于符号的发音。

Accessibility

弯引号 (Curly Quotes, Smart Quotes)

排版上正确的引号（“ ” ‘ ’），与直引号（" '）相对。

Typography

数学字母数字符号 (Mathematical Alphanumeric Symbols)

包含数学符号中使用的样式化字母和数字的Unicode区段（U+1D400至U+1D7FF）。

Unicode Standard

文字系统 (Script)

表示字符所属书写系统的Unicode属性（例如：拉丁文、希腊文、通用、继承）。

Unicode Standard

易混淆字符 (Confusables, Homoglyphs)

外观相似或相同但具有不同码位的字符（例如：拉丁字母'A' U+0041 与西里尔字母'А' U+0410）。

Unicode Standard

替换字符 (Replacement Character)

当解码器遇到无效或无法识别的字节序列时显示的菱形问号字符（U+FFFD，�）。

Encoding

正则表达式Unicode支持 (Regex Unicode Support)

使用支持Unicode的正则表达式，如JS中的/u标志和Python中的re.UNICODE。

Programming & Dev

死键 (Dead Keys)

不会立即产生字符而是修改下一次按键的键盘键（例如：´ → e → é）。

Input Methods

盲文图案 (Braille Patterns)

表示8点盲文单元所有可能组合的256个Unicode字符（U+2800至U+28FF）。

Accessibility

省略号 (Ellipsis)

表示三个点的单个字符（…，U+2026），优于连续输入三个句号。

Typography

短破折号 (En Dash)

宽度与字母N相当的排版破折号（–，U+2013），用于表示范围（如1–10）和关系。

Typography

码位 (Code Point)

Unicode标准中映射到特定字符的数值，以U+加十六进制数字的形式表示。

Unicode Standard

码位 vs 字符 vs 字形 (Code Point vs Character vs Glyph)

理解三个抽象层次：码位（数字）、字符（抽象概念）和字形（视觉渲染）。

Programming & Dev

私用区 (Private Use Area)

为字体厂商或应用程序自定义字符而保留的Unicode码位范围（U+E000至U+F8FF等）。

Unicode Standard

空白字符 (Whitespace Characters)

表示水平或垂直空间但没有可见字形的字符（空格、制表符、换行符等）。

Typography

符号替代文本 (Alt Text for Symbols)

为装饰性和有意义的符号字符提供无障碍文本替代方案的最佳实践。

Accessibility

组合字符 (Combining Character)

修改前一个基础字符的Unicode字符，如重音符号和变音符号。

Unicode Standard

组合键 (Compose Key)

Input Methods

编码检测 (Encoding Detection)

检测文本文件字符编码的技术，包括BOM探测、启发式方法和chardet库等。

Programming & Dev

表情符号 (Emoji)

Unicode中定义的象形符号，起源于日本手机，现已成为全球通用的视觉交流方式。

Unicode Standard

豆腐字 (Tofu, Missing Glyph)

当字体无法渲染某个字符时显示的空白方块（□），因其外形似豆腐而得名。

Typography

软连字符 (Soft Hyphen)

一种不可见字符（U+00AD），标记单词在换行时可以用连字符断开的位置。

Typography

输入法编辑器 (Input Method Editor, IME)

使用户能够输入键盘上没有的字符的软件，对CJK、阿拉伯语等复杂文字系统至关重要。

Input Methods

连字 (Ligature)

将两个或多个字符组合为单个字形（如fi、fl）。分为排版连字（字体特性）和Unicode连字字符。

Typography

通用语言环境数据存储库 (CLDR)

提供全球使用的日期、货币和语言名称等区域特定格式规则的项目。

Unicode Standard

长破折号 (Em Dash)

宽度与字母M相当的排版破折号（—，U+2014），用于插入语和思路中断。

Typography

零宽空格 (Zero-Width Space)

一种不可见的Unicode字符（U+200B），用于标示可能的换行点，但不显示任何可见空白。

Typography

零宽连接符 (Zero-Width Joiner, ZWJ)

一种不可见字符（U+200D），用于连接相邻字符，常用于Emoji序列中创建组合表情。

Unicode Standard

项目符号 (Bullet Character)

用于列表项和文本装饰的排版符号（•，U+2022）。

Typography