术语表
Unicode、编码和排版术语解析。
Alt码 (Alt Code)
在Windows中按住Alt键并在数字键盘上输入数字代码来输入字符的方法(例如:Alt+0169 → ©)。
Input MethodsARIA标签 (ARIA Label)
为元素提供无障碍名称的HTML属性,对于使符号密集的UI可被屏幕阅读器使用至关重要。
Web & HTMLASCII
美国信息交换标准代码——一种7位编码,包含128个字符,涵盖英文字母、数字和标点符号。
EncodingCJK(中日韩)
中文、日文、韩文的缩写,指这三种语言共享的统一表意文字集合。
Unicode StandardCSS content属性 (CSS content Property)
在元素前后插入内容的CSS属性,常与Unicode转义序列配合使用。
Web & HTMLHTML实体 (HTML Entity)
以&开头并以;结尾的字符串,用于在HTML中显示保留字符或特殊字符(例如:& → &)。
Web & HTMLIDN同形异义攻击 (IDN Homograph Attack)
一种钓鱼技术,利用域名中视觉上相似的Unicode字符来冒充合法网站。
Programming & DevJavaScript字符串与码位 (JS String & Code Points)
用于Unicode的JS String方法:codePointAt()、String.fromCodePoint()以及用于字素迭代的展开运算符。
Programming & DevLatin-1 (ISO 8859-1)
面向西欧语言的单字节编码,涵盖256个字符(U+0000至U+00FF)。
EncodingmacOS字符检视器 (macOS Character Viewer)
macOS内置工具(Ctrl+Cmd+Space),用于浏览和插入Unicode字符及Emoji。
Input MethodsPunycode(国际化域名编码)
一种用ASCII字符表示Unicode字符串的编码语法,用于国际化域名(IDN)。
Web & HTMLPython unicodedata模块 (Python unicodedata)
用于查询Unicode字符名称、类别和属性的Python标准库模块。
Programming & Devunicode-range (CSS)
指定Web字体所涵盖的Unicode码位范围的CSS描述符,可实现字体子集化。
Web & HTMLUnicode三明治模式 (Unicode Sandwich Pattern)
一种编程最佳实践:解码字节 → 以Unicode处理文本 → 编码为字节。
Programming & DevUnicode区段 (Unicode Block)
Unicode标准定义的连续码位范围,用于将相关字符分组(例如'箭头'区段:U+2190~U+21FF)。
Unicode StandardUnicode十六进制输入 (Unicode Hex Input)
一种macOS键盘布局,允许按住Option键并输入十六进制码位来输入字符。
Input MethodsUnicode属性转义 (\p{})
通过Unicode属性匹配字符的正则表达式语法(\p{Script=Greek}、\p{Letter}),JS、Java、Python等均支持。
Programming & DevUnicode平面 (Unicode Plane)
由65,536个连续码位组成的分组。Unicode共有17个平面(0至16),其中平面0为BMP。
Unicode StandardUnicode排序 (Unicode Collation)
使用Unicode排序算法(UCA,UTS #10)按照语言特定规则对文本进行排序。
Programming & DevUnicode版本 (Unicode Version)
Unicode标准的编号发布版本(如16.0),每个版本添加新字符、文字系统和Emoji。
Unicode StandardUnicode (统一码)
一种通用字符编码标准,为所有书写系统中的每个字符分配唯一的数字(码位)。
Unicode StandardUnicode联盟 (Unicode Consortium)
开发和维护Unicode标准的非营利组织,每年通过新版本添加新字符。
Unicode StandardUnicode规范化 (Unicode Normalization)
将Unicode文本转换为标准形式(NFC、NFD、NFKC、NFKD)以确保一致比较和存储的过程。
EncodingUnicode转义序列 (Unicode Escape Sequence)
在编程语言中通过码位表示字符的方法(JS/Java: \u2603,ES6+: \u{2603},Python: \U00002603)。
EncodingUnihan数据库 (Unihan Database)
由Unicode联盟维护的CJK表意文字综合数据库,包含读音、释义和异体字信息。
Unicode StandardURL中的Unicode (Unicode in URLs & IRIs)
URL中Unicode字符的处理方式:IRI(RFC 3987)、UTF-8字节的百分比编码及浏览器显示。
Programming & DevURL编码 (Percent-Encoding)
在URL中将特殊字符替换为其UTF-8字节的十六进制表示并以%为前缀的编码方法。
Web & HTMLUTF-16
每个字符使用2或4个字节的字符编码,JavaScript和Java内部使用此编码。
EncodingUTF-32
每个字符使用4个字节的固定宽度编码,简单但内存占用较大。
EncodingUTF-8
一种使用1到4个字节表示Unicode码位的可变宽度字符编码,是互联网上最主流的编码方式。
EncodingWCAG文本替代 (WCAG Text Alternatives)
WCAG 1.1.1指南,要求为包括符号和图标在内的非文本内容提供文本替代方案。
AccessibilityWeb字体 (Web Fonts, @font-face)
通过CSS @font-face规则加载的自定义字体,使排版不再局限于系统预装字体。
Web & HTMLWindows-1252
旧版Windows应用程序默认使用的Latin-1超集,在0x80–0x9F范围内包含额外字符。
EncodingWindows表情符号面板 (Windows Emoji Panel)
用于浏览和插入Emoji及特殊字符的Windows工具(Win+.或Win+;)。
Input Methods一般类别 (General Category)
对每个字符进行分类的Unicode属性(例如:Lu = 大写字母,Sm = 数学符号,So = 其他符号)。
Unicode Standard不间断空格 (Non-Breaking Space)
一种空格字符(U+00A0),防止在该位置自动换行,使相邻的词保持在一起。
Typography乱码 (Mojibake)
用错误的字符编码解码数据时产生的乱码文本。在混用Latin-1和UTF-8时尤为常见。
Encoding代理对 (Surrogate Pair)
UTF-16中用于表示基本多文种平面(BMP)以外单个字符的一对16位码元。
Encoding全角与半角 (Fullwidth & Halfwidth)
CJK排版中占据不同宽度的字符变体。全角字符占据与CJK表意文字相同的空间。
Typography制表符 (Box Drawing Characters)
用于在文本界面和终端模拟器中绘制方框和表格的Unicode字符(U+2500至U+257F)。
Typography双向文本 (Bidirectional Text, Bidi)
混合从左到右和从右到左书写方向的文本,需要Unicode双向算法来正确显示。
Unicode Standard变体选择符 (Variation Selector)
修改前一个字符外观的Unicode字符(U+FE00至U+FE0F),包括文本与Emoji显示方式的切换。
Unicode Standard变音符号 (Diacritical Mark)
添加到字母上以改变其发音或含义的标记(例如:锐音符 é、分音符 ü、波浪号 ñ)。
Typography国际化域名 (IDN)
包含非ASCII字符的域名,通过Punycode编码以兼容DNS。
Web & HTML基本多文种平面 (Basic Multilingual Plane, BMP)
Unicode的前65,536个码位(U+0000至U+FFFF),包含最常用的字符。
Unicode Standard字体回退 (Font Fallback)
当主字体缺少某个字符的字形时,浏览器使用替代字体的机制。
Typography字形 (Glyph)
由特定字体渲染的字符的视觉表现形式。一个字符在不同字体中可能有多种字形。
Typography字符串长度与字符数 (String Length vs Character Count)
JavaScript中str.length返回UTF-16码元数而非可见字符数的原因,以及如何正确计算字素。
Programming & Dev字符引用 (Character Reference)
通过数字(☃)或名称(©)插入字符的HTML标记,用于特殊字符或保留字符。
Web & HTML字符集 (Character Set, Charset)
计算机系统所识别的一组已定义字符。虽然常与'编码'互换使用,但严格来说两者是不同的概念。
Encoding字素分割 (Grapheme Segmentation, UAX #29)
将文本按用户感知的字符单位分割的Unicode算法,可处理Emoji序列、组合标记等。
Programming & Dev字素簇 (Grapheme Cluster)
用户感知的字符单位,可能由多个码位组成(例如:基础字符+组合标记、国旗Emoji等)。
Unicode Standard字节顺序标记 (Byte Order Mark, BOM)
位于文件开头的特殊Unicode字符(U+FEFF),用于指示文件的字节序和编码格式。
Encoding字距 (Letter Spacing, Tracking)
对文本块中所有字符之间的间距进行统一调整,与字距调整(Kerning)不同。
Typography字距调整 (Kerning)
为改善视觉效果而对特定字符对之间的间距进行调整(如AV、To)。
Typography屏幕阅读器 (Screen Reader)
将文本和UI元素朗读出来的辅助技术。Unicode字符名称用于符号的发音。
Accessibility弯引号 (Curly Quotes, Smart Quotes)
排版上正确的引号(“ ” ‘ ’),与直引号(" ')相对。
Typography数学字母数字符号 (Mathematical Alphanumeric Symbols)
包含数学符号中使用的样式化字母和数字的Unicode区段(U+1D400至U+1D7FF)。
Unicode Standard文字系统 (Script)
表示字符所属书写系统的Unicode属性(例如:拉丁文、希腊文、通用、继承)。
Unicode Standard易混淆字符 (Confusables, Homoglyphs)
外观相似或相同但具有不同码位的字符(例如:拉丁字母'A' U+0041 与西里尔字母'А' U+0410)。
Unicode Standard替换字符 (Replacement Character)
当解码器遇到无效或无法识别的字节序列时显示的菱形问号字符(U+FFFD,�)。
Encoding正则表达式Unicode支持 (Regex Unicode Support)
使用支持Unicode的正则表达式,如JS中的/u标志和Python中的re.UNICODE。
Programming & Dev死键 (Dead Keys)
不会立即产生字符而是修改下一次按键的键盘键(例如:´ → e → é)。
Input Methods盲文图案 (Braille Patterns)
表示8点盲文单元所有可能组合的256个Unicode字符(U+2800至U+28FF)。
Accessibility省略号 (Ellipsis)
表示三个点的单个字符(…,U+2026),优于连续输入三个句号。
Typography短破折号 (En Dash)
宽度与字母N相当的排版破折号(–,U+2013),用于表示范围(如1–10)和关系。
Typography码位 (Code Point)
Unicode标准中映射到特定字符的数值,以U+加十六进制数字的形式表示。
Unicode Standard码位 vs 字符 vs 字形 (Code Point vs Character vs Glyph)
理解三个抽象层次:码位(数字)、字符(抽象概念)和字形(视觉渲染)。
Programming & Dev私用区 (Private Use Area)
为字体厂商或应用程序自定义字符而保留的Unicode码位范围(U+E000至U+F8FF等)。
Unicode Standard空白字符 (Whitespace Characters)
表示水平或垂直空间但没有可见字形的字符(空格、制表符、换行符等)。
Typography符号替代文本 (Alt Text for Symbols)
为装饰性和有意义的符号字符提供无障碍文本替代方案的最佳实践。
Accessibility组合字符 (Combining Character)
修改前一个基础字符的Unicode字符,如重音符号和变音符号。
Unicode Standard组合键 (Compose Key)
Linux/Unix系统上用于启动多键序列以产生特殊字符的键(例如:Compose + c + o → ©)。
Input Methods编码检测 (Encoding Detection)
检测文本文件字符编码的技术,包括BOM探测、启发式方法和chardet库等。
Programming & Dev表情符号 (Emoji)
Unicode中定义的象形符号,起源于日本手机,现已成为全球通用的视觉交流方式。
Unicode Standard豆腐字 (Tofu, Missing Glyph)
当字体无法渲染某个字符时显示的空白方块(□),因其外形似豆腐而得名。
Typography软连字符 (Soft Hyphen)
一种不可见字符(U+00AD),标记单词在换行时可以用连字符断开的位置。
Typography输入法编辑器 (Input Method Editor, IME)
使用户能够输入键盘上没有的字符的软件,对CJK、阿拉伯语等复杂文字系统至关重要。
Input Methods连字 (Ligature)
将两个或多个字符组合为单个字形(如fi、fl)。分为排版连字(字体特性)和Unicode连字字符。
Typography通用语言环境数据存储库 (CLDR)
提供全球使用的日期、货币和语言名称等区域特定格式规则的项目。
Unicode Standard长破折号 (Em Dash)
宽度与字母M相当的排版破折号(—,U+2014),用于插入语和思路中断。
Typography零宽空格 (Zero-Width Space)
一种不可见的Unicode字符(U+200B),用于标示可能的换行点,但不显示任何可见空白。
Typography零宽连接符 (Zero-Width Joiner, ZWJ)
一种不可见字符(U+200D),用于连接相邻字符,常用于Emoji序列中创建组合表情。
Unicode Standard项目符号 (Bullet Character)
用于列表项和文本装饰的排版符号(•,U+2022)。
Typography