SymbolFYI

术语表

Unicode、编码和排版术语解析。

Alt码 (Alt Code)

在Windows中按住Alt键并在数字键盘上输入数字代码来输入字符的方法(例如:Alt+0169 → ©)。

Input Methods

ARIA标签 (ARIA Label)

为元素提供无障碍名称的HTML属性,对于使符号密集的UI可被屏幕阅读器使用至关重要。

Web & HTML

ASCII

美国信息交换标准代码——一种7位编码,包含128个字符,涵盖英文字母、数字和标点符号。

Encoding

CJK(中日韩)

中文、日文、韩文的缩写,指这三种语言共享的统一表意文字集合。

Unicode Standard

CSS content属性 (CSS content Property)

在元素前后插入内容的CSS属性,常与Unicode转义序列配合使用。

Web & HTML

HTML实体 (HTML Entity)

以&开头并以;结尾的字符串,用于在HTML中显示保留字符或特殊字符(例如:& → &)。

Web & HTML

IDN同形异义攻击 (IDN Homograph Attack)

一种钓鱼技术,利用域名中视觉上相似的Unicode字符来冒充合法网站。

Programming & Dev

JavaScript字符串与码位 (JS String & Code Points)

用于Unicode的JS String方法:codePointAt()、String.fromCodePoint()以及用于字素迭代的展开运算符。

Programming & Dev

Latin-1 (ISO 8859-1)

面向西欧语言的单字节编码,涵盖256个字符(U+0000至U+00FF)。

Encoding

macOS字符检视器 (macOS Character Viewer)

macOS内置工具(Ctrl+Cmd+Space),用于浏览和插入Unicode字符及Emoji。

Input Methods

Punycode(国际化域名编码)

一种用ASCII字符表示Unicode字符串的编码语法,用于国际化域名(IDN)。

Web & HTML

Python unicodedata模块 (Python unicodedata)

用于查询Unicode字符名称、类别和属性的Python标准库模块。

Programming & Dev

unicode-range (CSS)

指定Web字体所涵盖的Unicode码位范围的CSS描述符,可实现字体子集化。

Web & HTML

Unicode三明治模式 (Unicode Sandwich Pattern)

一种编程最佳实践:解码字节 → 以Unicode处理文本 → 编码为字节。

Programming & Dev

Unicode区段 (Unicode Block)

Unicode标准定义的连续码位范围,用于将相关字符分组(例如'箭头'区段:U+2190~U+21FF)。

Unicode Standard

Unicode十六进制输入 (Unicode Hex Input)

一种macOS键盘布局,允许按住Option键并输入十六进制码位来输入字符。

Input Methods

Unicode属性转义 (\p{})

通过Unicode属性匹配字符的正则表达式语法(\p{Script=Greek}、\p{Letter}),JS、Java、Python等均支持。

Programming & Dev

Unicode平面 (Unicode Plane)

由65,536个连续码位组成的分组。Unicode共有17个平面(0至16),其中平面0为BMP。

Unicode Standard

Unicode排序 (Unicode Collation)

使用Unicode排序算法(UCA,UTS #10)按照语言特定规则对文本进行排序。

Programming & Dev

Unicode版本 (Unicode Version)

Unicode标准的编号发布版本(如16.0),每个版本添加新字符、文字系统和Emoji。

Unicode Standard

Unicode (统一码)

一种通用字符编码标准,为所有书写系统中的每个字符分配唯一的数字(码位)。

Unicode Standard

Unicode联盟 (Unicode Consortium)

开发和维护Unicode标准的非营利组织,每年通过新版本添加新字符。

Unicode Standard

Unicode规范化 (Unicode Normalization)

将Unicode文本转换为标准形式(NFC、NFD、NFKC、NFKD)以确保一致比较和存储的过程。

Encoding

Unicode转义序列 (Unicode Escape Sequence)

在编程语言中通过码位表示字符的方法(JS/Java: \u2603,ES6+: \u{2603},Python: \U00002603)。

Encoding

Unihan数据库 (Unihan Database)

由Unicode联盟维护的CJK表意文字综合数据库,包含读音、释义和异体字信息。

Unicode Standard

URL中的Unicode (Unicode in URLs & IRIs)

URL中Unicode字符的处理方式:IRI(RFC 3987)、UTF-8字节的百分比编码及浏览器显示。

Programming & Dev

URL编码 (Percent-Encoding)

在URL中将特殊字符替换为其UTF-8字节的十六进制表示并以%为前缀的编码方法。

Web & HTML

UTF-16

每个字符使用2或4个字节的字符编码,JavaScript和Java内部使用此编码。

Encoding

UTF-32

每个字符使用4个字节的固定宽度编码,简单但内存占用较大。

Encoding

UTF-8

一种使用1到4个字节表示Unicode码位的可变宽度字符编码,是互联网上最主流的编码方式。

Encoding

WCAG文本替代 (WCAG Text Alternatives)

WCAG 1.1.1指南,要求为包括符号和图标在内的非文本内容提供文本替代方案。

Accessibility

Web字体 (Web Fonts, @font-face)

通过CSS @font-face规则加载的自定义字体,使排版不再局限于系统预装字体。

Web & HTML

Windows-1252

旧版Windows应用程序默认使用的Latin-1超集,在0x80–0x9F范围内包含额外字符。

Encoding

Windows表情符号面板 (Windows Emoji Panel)

用于浏览和插入Emoji及特殊字符的Windows工具(Win+.或Win+;)。

Input Methods

一般类别 (General Category)

对每个字符进行分类的Unicode属性(例如:Lu = 大写字母,Sm = 数学符号,So = 其他符号)。

Unicode Standard

不间断空格 (Non-Breaking Space)

一种空格字符(U+00A0),防止在该位置自动换行,使相邻的词保持在一起。

Typography

乱码 (Mojibake)

用错误的字符编码解码数据时产生的乱码文本。在混用Latin-1和UTF-8时尤为常见。

Encoding

代理对 (Surrogate Pair)

UTF-16中用于表示基本多文种平面(BMP)以外单个字符的一对16位码元。

Encoding

全角与半角 (Fullwidth & Halfwidth)

CJK排版中占据不同宽度的字符变体。全角字符占据与CJK表意文字相同的空间。

Typography

制表符 (Box Drawing Characters)

用于在文本界面和终端模拟器中绘制方框和表格的Unicode字符(U+2500至U+257F)。

Typography

双向文本 (Bidirectional Text, Bidi)

混合从左到右和从右到左书写方向的文本,需要Unicode双向算法来正确显示。

Unicode Standard

变体选择符 (Variation Selector)

修改前一个字符外观的Unicode字符(U+FE00至U+FE0F),包括文本与Emoji显示方式的切换。

Unicode Standard

变音符号 (Diacritical Mark)

添加到字母上以改变其发音或含义的标记(例如:锐音符 é、分音符 ü、波浪号 ñ)。

Typography

国际化域名 (IDN)

包含非ASCII字符的域名,通过Punycode编码以兼容DNS。

Web & HTML

基本多文种平面 (Basic Multilingual Plane, BMP)

Unicode的前65,536个码位(U+0000至U+FFFF),包含最常用的字符。

Unicode Standard

字体回退 (Font Fallback)

当主字体缺少某个字符的字形时,浏览器使用替代字体的机制。

Typography

字形 (Glyph)

由特定字体渲染的字符的视觉表现形式。一个字符在不同字体中可能有多种字形。

Typography

字符串长度与字符数 (String Length vs Character Count)

JavaScript中str.length返回UTF-16码元数而非可见字符数的原因,以及如何正确计算字素。

Programming & Dev

字符引用 (Character Reference)

通过数字(☃)或名称(©)插入字符的HTML标记,用于特殊字符或保留字符。

Web & HTML

字符集 (Character Set, Charset)

计算机系统所识别的一组已定义字符。虽然常与'编码'互换使用,但严格来说两者是不同的概念。

Encoding

字素分割 (Grapheme Segmentation, UAX #29)

将文本按用户感知的字符单位分割的Unicode算法,可处理Emoji序列、组合标记等。

Programming & Dev

字素簇 (Grapheme Cluster)

用户感知的字符单位,可能由多个码位组成(例如:基础字符+组合标记、国旗Emoji等)。

Unicode Standard

字节顺序标记 (Byte Order Mark, BOM)

位于文件开头的特殊Unicode字符(U+FEFF),用于指示文件的字节序和编码格式。

Encoding

字距 (Letter Spacing, Tracking)

对文本块中所有字符之间的间距进行统一调整,与字距调整(Kerning)不同。

Typography

字距调整 (Kerning)

为改善视觉效果而对特定字符对之间的间距进行调整(如AV、To)。

Typography

屏幕阅读器 (Screen Reader)

将文本和UI元素朗读出来的辅助技术。Unicode字符名称用于符号的发音。

Accessibility

弯引号 (Curly Quotes, Smart Quotes)

排版上正确的引号(“ ” ‘ ’),与直引号(" ')相对。

Typography

数学字母数字符号 (Mathematical Alphanumeric Symbols)

包含数学符号中使用的样式化字母和数字的Unicode区段(U+1D400至U+1D7FF)。

Unicode Standard

文字系统 (Script)

表示字符所属书写系统的Unicode属性(例如:拉丁文、希腊文、通用、继承)。

Unicode Standard

易混淆字符 (Confusables, Homoglyphs)

外观相似或相同但具有不同码位的字符(例如:拉丁字母'A' U+0041 与西里尔字母'А' U+0410)。

Unicode Standard

替换字符 (Replacement Character)

当解码器遇到无效或无法识别的字节序列时显示的菱形问号字符(U+FFFD,�)。

Encoding

正则表达式Unicode支持 (Regex Unicode Support)

使用支持Unicode的正则表达式,如JS中的/u标志和Python中的re.UNICODE。

Programming & Dev

死键 (Dead Keys)

不会立即产生字符而是修改下一次按键的键盘键(例如:´ → e → é)。

Input Methods

盲文图案 (Braille Patterns)

表示8点盲文单元所有可能组合的256个Unicode字符(U+2800至U+28FF)。

Accessibility

省略号 (Ellipsis)

表示三个点的单个字符(…,U+2026),优于连续输入三个句号。

Typography

短破折号 (En Dash)

宽度与字母N相当的排版破折号(–,U+2013),用于表示范围(如1–10)和关系。

Typography

码位 (Code Point)

Unicode标准中映射到特定字符的数值,以U+加十六进制数字的形式表示。

Unicode Standard

码位 vs 字符 vs 字形 (Code Point vs Character vs Glyph)

理解三个抽象层次:码位(数字)、字符(抽象概念)和字形(视觉渲染)。

Programming & Dev

私用区 (Private Use Area)

为字体厂商或应用程序自定义字符而保留的Unicode码位范围(U+E000至U+F8FF等)。

Unicode Standard

空白字符 (Whitespace Characters)

表示水平或垂直空间但没有可见字形的字符(空格、制表符、换行符等)。

Typography

符号替代文本 (Alt Text for Symbols)

为装饰性和有意义的符号字符提供无障碍文本替代方案的最佳实践。

Accessibility

组合字符 (Combining Character)

修改前一个基础字符的Unicode字符,如重音符号和变音符号。

Unicode Standard

组合键 (Compose Key)

Linux/Unix系统上用于启动多键序列以产生特殊字符的键(例如:Compose + c + o → ©)。

Input Methods

编码检测 (Encoding Detection)

检测文本文件字符编码的技术,包括BOM探测、启发式方法和chardet库等。

Programming & Dev

表情符号 (Emoji)

Unicode中定义的象形符号,起源于日本手机,现已成为全球通用的视觉交流方式。

Unicode Standard

豆腐字 (Tofu, Missing Glyph)

当字体无法渲染某个字符时显示的空白方块(□),因其外形似豆腐而得名。

Typography

软连字符 (Soft Hyphen)

一种不可见字符(U+00AD),标记单词在换行时可以用连字符断开的位置。

Typography

输入法编辑器 (Input Method Editor, IME)

使用户能够输入键盘上没有的字符的软件,对CJK、阿拉伯语等复杂文字系统至关重要。

Input Methods

连字 (Ligature)

将两个或多个字符组合为单个字形(如fi、fl)。分为排版连字(字体特性)和Unicode连字字符。

Typography

通用语言环境数据存储库 (CLDR)

提供全球使用的日期、货币和语言名称等区域特定格式规则的项目。

Unicode Standard

长破折号 (Em Dash)

宽度与字母M相当的排版破折号(—,U+2014),用于插入语和思路中断。

Typography

零宽空格 (Zero-Width Space)

一种不可见的Unicode字符(U+200B),用于标示可能的换行点,但不显示任何可见空白。

Typography

零宽连接符 (Zero-Width Joiner, ZWJ)

一种不可见字符(U+200D),用于连接相邻字符,常用于Emoji序列中创建组合表情。

Unicode Standard

项目符号 (Bullet Character)

用于列表项和文本装饰的排版符号(•,U+2022)。

Typography