Unicode・タイポグラフィ用語集 — Key Terms

Altコード (Alt Code)

WindowsでAltキーを押しながらテンキーで数字コードを入力して文字を打つ方法（例：Alt+0169 → ©）。

Input Methods

ARIAラベル (ARIA Label)

要素にアクセシブルな名前を提供するHTML属性。記号が多用されるUIをスクリーンリーダーで利用可能にするために不可欠。

Web & HTML

ASCII (アスキー)

英字、数字、句読点を含む128文字のための7ビットエンコーディング。情報交換用米国標準コード。

Encoding

CJK（中日韓）

中国語・日本語・韓国語の略称。この3言語で共有される統合表意文字の集合を指す。

Unicode Standard

CSS contentプロパティ (CSS content Property)

要素の前後にコンテンツを挿入するCSSプロパティ。Unicodeエスケープシーケンスと共によく使われる。

Web & HTML

HTMLエンティティ (HTML Entity)

&で始まり;で終わる文字列で、HTMLで予約文字や特殊文字を表示するために使用される（例：& → &）。

Web & HTML

IDNホモグラフ攻撃 (IDN Homograph Attack)

正規サイトを偽装するためにドメイン名に視覚的に類似したUnicode文字を使用するフィッシング手法。

Programming & Dev

JavaScript文字列とコードポイント (JS String & Code Points)

Unicode用のJS Stringメソッド：codePointAt()、String.fromCodePoint()、書記素イテレーション用のスプレッド演算子。

Programming & Dev

Latin-1 (ISO 8859-1)

西ヨーロッパ言語向けのシングルバイトエンコーディング。256文字（U+0000〜U+00FF）をカバーする。

Encoding

macOS文字ビューア (macOS Character Viewer)

Unicode文字と絵文字を閲覧・挿入できるmacOS内蔵ユーティリティ（Ctrl+Cmd+Space）。

Input Methods

Punycode（ピュニコード）

Unicode文字列をASCII文字で表現するためのエンコーディング構文。国際化ドメイン名（IDN）で使用される。

Web & HTML

Python unicodedataモジュール (Python unicodedata)

Unicode文字名、カテゴリ、プロパティを検索するためのPython標準ライブラリモジュール。

Programming & Dev

Unicode 16進入力 (Unicode Hex Input)

Optionキーを押しながら16進コードポイントを入力して文字を打てるmacOSキーボードレイアウト。

Input Methods

unicode-range (CSS)

Webフォントがカバーするユニコードコードポイントの範囲を指定するCSSディスクリプタで、フォントサブセッティングを可能にする。

Web & HTML

Unicodeエスケープシーケンス (Unicode Escape Sequence)

プログラミング言語でコードポイントにより文字を表す方法（JS/Java: \u2603、ES6+: \u{2603}、Python: \U00002603）。

Encoding

Unicodeコンソーシアム (Unicode Consortium)

Unicode規格を開発・維持する非営利団体。毎年の新リリースで新しい文字を追加している。

Unicode Standard

Unicodeサンドイッチパターン (Unicode Sandwich Pattern)

バイトをデコード → Unicodeでテキスト処理 → バイトにエンコードというプログラミングのベストプラクティス。

Programming & Dev

Unicodeバージョン (Unicode Version)

新しい文字、スクリプト、絵文字を追加するUnicode規格の番号付きリリース（例：16.0）。

Unicode Standard

Unicodeブロック (Unicode Block)

Unicode規格で定義された連続したコードポイント範囲で、関連する文字をグループ化する（例：「矢印」ブロック：U+2190〜U+21FF）。

Unicode Standard

Unicodeプロパティエスケープ (\p{})

Unicodeプロパティで文字をマッチする正規表現構文（\p{Script=Greek}、\p{Letter}）。JS、Java、Pythonなどでサポート。

Programming & Dev

Unicode正規化 (Unicode Normalization)

一貫した比較と保存のためにUnicodeテキストを標準形式（NFC、NFD、NFKC、NFKD）に変換するプロセス。

Encoding

Unicode照合 (Unicode Collation)

Unicode照合アルゴリズム（UCA、UTS #10）を使用して言語固有のルールに従いテキストをソートすること。

Programming & Dev

Unicode面 (Unicode Plane)

連続する65,536個のコードポイントのグループ。Unicodeには17面（0〜16）があり、面0がBMPである。

Unicode Standard

Unihanデータベース (Unihan Database)

Unicodeコンソーシアムが維持するCJK表意文字の読み・意味・異体字情報の総合データベース。

Unicode Standard

URLエンコーディング (Percent-Encoding)

URL内の特殊文字をUTF-8バイトの16進2桁の前に%を付けて置き換えるエンコード方法。

Web & HTML

URL内のUnicode (Unicode in URLs & IRIs)

URLでUnicode文字がどう扱われるか：IRI（RFC 3987）、UTF-8バイトのパーセントエンコーディング、ブラウザ表示。

Programming & Dev

UTF-16

1文字あたり2バイトまたは4バイトを使用する文字エンコーディング。JavaScriptやJavaの内部処理で使用される。

Encoding

UTF-32

1文字あたり4バイトを使用する固定幅エンコーディング。単純だがメモリ消費が大きい。

Encoding

UTF-8

Unicodeコードポイントを表すために1〜4バイトを使用する可変幅文字エンコーディング。ウェブで最も広く使われているエンコーディングである。

Encoding

WCAGテキスト代替 (WCAG Text Alternatives)

記号やアイコンを含む非テキストコンテンツにテキスト代替を要求するWCAG 1.1.1ガイドライン。

Accessibility

Webフォント (Web Fonts, @font-face)

CSS @font-faceルールで読み込まれるカスタムフォントで、システムインストールフォントを超えたリッチなタイポグラフィを実現する。

Web & HTML

Windows-1252

レガシーWindowsアプリケーションでデフォルト使用されるLatin-1のスーパーセット。0x80〜0x9F範囲に追加文字を含む。

Encoding

Windows絵文字パネル (Windows Emoji Panel)

絵文字と特殊文字を閲覧・挿入できるWindowsユーティリティ（Win+.またはWin+;）。

Input Methods

エムダッシュ (Em Dash)

文字Mの幅のタイポグラフィダッシュ（—、U+2014）。挿入句や文の中断に使われる。

Typography

エンコーディング検出 (Encoding Detection)

BOM検出、ヒューリスティクス、chardetライブラリなどを含むテキストファイルの文字エンコーディング検出技法。

Programming & Dev

エンダッシュ (En Dash)

文字Nの幅のタイポグラフィダッシュ（–、U+2013）。範囲（例：1–10）や関係を示すのに使われる。

Typography

カーニング (Kerning)

視覚的な見栄えを改善するために特定の文字ペア間のスペーシングを調整すること（例：AV、To）。

Typography

カーリークォート (Curly Quotes, Smart Quotes)

タイポグラフィ的に正しい引用符（“ ” ‘ ’）。直線型の引用符（" '）とは異なる。

Typography

グリフ (Glyph)

特定のフォントによってレンダリングされる文字の視覚的表現。1つの文字がフォントによって複数のグリフを持つことがある。

Typography

コードポイント (Code Point)

Unicode規格で特定の文字に対応する数値。U+に続く16進数で表記される。

Unicode Standard

コードポイント vs 文字 vs グリフ (Code Point vs Character vs Glyph)

3つの抽象化レベルの理解：コードポイント（数値）、文字（抽象概念）、グリフ（視覚的レンダリング）。

Programming & Dev

コンポーズキー (Compose Key)

Linux/Unixシステムで特殊文字を生成するマルチキーシーケンスを開始するキー（例：Compose + c + o → ©）。

Input Methods

サロゲートペア (Surrogate Pair)

UTF-16で基本多言語面（BMP）外の1文字を表すために使用される16ビットコードユニットのペア。

Encoding

スクリーンリーダー (Screen Reader)

テキストやUI要素を音声で読み上げる支援技術。Unicode文字名が記号の読み上げに使用される。

Accessibility

スクリプト (Script)

文字がどの文字体系に属するかを示すUnicodeプロパティ（例：ラテン文字、ギリシャ文字、共通、継承）。

Unicode Standard

ゼロ幅スペース (Zero-Width Space)

不可視のUnicode文字（U+200B）で、可視的なスペースを表示せずに改行可能な位置を示す。

Typography

ゼロ幅接合子 (Zero-Width Joiner, ZWJ)

隣接する文字を結合する不可視文字（U+200D）。絵文字シーケンスで合成絵文字を作成するのによく使われる。

Unicode Standard

ソフトハイフン (Soft Hyphen)

改行時に単語がハイフンで分割される位置を示す不可視文字（U+00AD）。それ以外では表示されない。

Typography

ダイアクリティカルマーク (Diacritical Mark)

文字に付加されてその発音や意味を変えるマーク（例：アキュートアクセント é、ウムラウト ü、ティルデ ñ）。

Typography

デッドキー (Dead Keys)

すぐに文字を生成せず、次のキー入力を修飾するキーボードキー（例：´ → e → é）。

Input Methods

トラッキング (Letter Spacing, Tracking)

テキストブロック内のすべての文字間スペースを均一に調整すること。カーニングとは異なる。

Typography

ノーブレークスペース (Non-Breaking Space)

その位置での自動改行を防ぎ、隣接する単語を一緒に保持するスペース文字（U+00A0）。

Typography

バイトオーダーマーク (Byte Order Mark, BOM)

ファイルのバイト順序とエンコーディング形式を示すためにファイル先頭に置かれる特殊なUnicode文字（U+FEFF）。

Encoding

ビュレット (Bullet Character)

リスト項目やテキスト装飾に使われるタイポグラフィ記号（•、U+2022）。

Typography

フォントフォールバック (Font Fallback)

プライマリフォントにある文字のグリフがないとき、ブラウザが代替フォントを使用するメカニズム。

Typography

ユニコード (Unicode)

すべての文字体系の文字に固有の番号（コードポイント）を割り当てる普遍的な文字エンコーディング規格。

Unicode Standard

リガチャ (Ligature)

2つ以上の文字を組み合わせた1つのグリフ（例：fi、fl）。タイポグラフィのリガチャ（フォント機能）とUnicodeリガチャ文字がある。

Typography

一般カテゴリ (General Category)

各文字を分類するUnicodeプロパティ（例：Lu = 大文字、Sm = 数学記号、So = その他の記号）。

Unicode Standard

入力メソッドエディタ (Input Method Editor, IME)

キーボードで直接入力できない文字の入力を可能にするソフトウェア。CJK、アラビア語などの複雑な文字体系に不可欠。

Input Methods

全角・半角 (Fullwidth & Halfwidth)

CJKタイポグラフィで異なる幅を占める文字のバリエーション。全角文字はCJK表意文字と同じ幅を占める。

Typography

共通ロケールデータリポジトリ (CLDR)

世界中で使用される日付・通貨・言語名のロケール固有の書式ルールを提供するプロジェクト。

Unicode Standard

双方向テキスト (Bidirectional Text, Bidi)

左から右と右から左の書字方向が混在するテキスト。正しい表示にはUnicode双方向アルゴリズムが必要。

Unicode Standard

国際化ドメイン名 (IDN)

非ASCII文字を含むドメイン名で、DNS互換性のためにPunycodeでエンコードされる。

Web & HTML

基本多言語面 (Basic Multilingual Plane, BMP)

Unicodeの最初の65,536個のコードポイント（U+0000〜U+FFFF）で、最も一般的に使用される文字を含む。

Unicode Standard

数学用英数字記号 (Mathematical Alphanumeric Symbols)

数学表記で使用されるスタイル付き文字と数字を含むUnicodeブロック（U+1D400〜U+1D7FF）。

Unicode Standard

文字セット (Character Set, Charset)

コンピューティングシステムが認識する定義済みの文字集合。「エンコーディング」と互換的に使われることが多いが、厳密には異なる概念。

Encoding

文字列長 vs 文字数 (String Length vs Character Count)

JavaScriptのstr.lengthが視覚的文字ではなくUTF-16コードユニット数を返す理由と、書記素を正しく数える方法。

Programming & Dev

文字化け (Mojibake)

間違った文字エンコーディングでデータをデコードした際に生じる文字の乱れ。Latin-1とUTF-8の混在でよく発生する。

Encoding

文字参照 (Character Reference)

Web & HTML