用語集
Unicode、エンコード、タイポグラフィの用語解説。
Altコード (Alt Code)
WindowsでAltキーを押しながらテンキーで数字コードを入力して文字を打つ方法(例:Alt+0169 → ©)。
Input MethodsARIAラベル (ARIA Label)
要素にアクセシブルな名前を提供するHTML属性。記号が多用されるUIをスクリーンリーダーで利用可能にするために不可欠。
Web & HTMLASCII (アスキー)
英字、数字、句読点を含む128文字のための7ビットエンコーディング。情報交換用米国標準コード。
EncodingCJK(中日韓)
中国語・日本語・韓国語の略称。この3言語で共有される統合表意文字の集合を指す。
Unicode StandardCSS contentプロパティ (CSS content Property)
要素の前後にコンテンツを挿入するCSSプロパティ。Unicodeエスケープシーケンスと共によく使われる。
Web & HTMLHTMLエンティティ (HTML Entity)
&で始まり;で終わる文字列で、HTMLで予約文字や特殊文字を表示するために使用される(例:& → &)。
Web & HTMLIDNホモグラフ攻撃 (IDN Homograph Attack)
正規サイトを偽装するためにドメイン名に視覚的に類似したUnicode文字を使用するフィッシング手法。
Programming & DevJavaScript文字列とコードポイント (JS String & Code Points)
Unicode用のJS Stringメソッド:codePointAt()、String.fromCodePoint()、書記素イテレーション用のスプレッド演算子。
Programming & DevLatin-1 (ISO 8859-1)
西ヨーロッパ言語向けのシングルバイトエンコーディング。256文字(U+0000〜U+00FF)をカバーする。
EncodingmacOS文字ビューア (macOS Character Viewer)
Unicode文字と絵文字を閲覧・挿入できるmacOS内蔵ユーティリティ(Ctrl+Cmd+Space)。
Input MethodsPunycode(ピュニコード)
Unicode文字列をASCII文字で表現するためのエンコーディング構文。国際化ドメイン名(IDN)で使用される。
Web & HTMLPython unicodedataモジュール (Python unicodedata)
Unicode文字名、カテゴリ、プロパティを検索するためのPython標準ライブラリモジュール。
Programming & DevUnicode 16進入力 (Unicode Hex Input)
Optionキーを押しながら16進コードポイントを入力して文字を打てるmacOSキーボードレイアウト。
Input Methodsunicode-range (CSS)
Webフォントがカバーするユニコードコードポイントの範囲を指定するCSSディスクリプタで、フォントサブセッティングを可能にする。
Web & HTMLUnicodeエスケープシーケンス (Unicode Escape Sequence)
プログラミング言語でコードポイントにより文字を表す方法(JS/Java: \u2603、ES6+: \u{2603}、Python: \U00002603)。
EncodingUnicodeコンソーシアム (Unicode Consortium)
Unicode規格を開発・維持する非営利団体。毎年の新リリースで新しい文字を追加している。
Unicode StandardUnicodeサンドイッチパターン (Unicode Sandwich Pattern)
バイトをデコード → Unicodeでテキスト処理 → バイトにエンコードというプログラミングのベストプラクティス。
Programming & DevUnicodeバージョン (Unicode Version)
新しい文字、スクリプト、絵文字を追加するUnicode規格の番号付きリリース(例:16.0)。
Unicode StandardUnicodeブロック (Unicode Block)
Unicode規格で定義された連続したコードポイント範囲で、関連する文字をグループ化する(例:「矢印」ブロック:U+2190〜U+21FF)。
Unicode StandardUnicodeプロパティエスケープ (\p{})
Unicodeプロパティで文字をマッチする正規表現構文(\p{Script=Greek}、\p{Letter})。JS、Java、Pythonなどでサポート。
Programming & DevUnicode正規化 (Unicode Normalization)
一貫した比較と保存のためにUnicodeテキストを標準形式(NFC、NFD、NFKC、NFKD)に変換するプロセス。
EncodingUnicode照合 (Unicode Collation)
Unicode照合アルゴリズム(UCA、UTS #10)を使用して言語固有のルールに従いテキストをソートすること。
Programming & DevUnicode面 (Unicode Plane)
連続する65,536個のコードポイントのグループ。Unicodeには17面(0〜16)があり、面0がBMPである。
Unicode StandardUnihanデータベース (Unihan Database)
Unicodeコンソーシアムが維持するCJK表意文字の読み・意味・異体字情報の総合データベース。
Unicode StandardURLエンコーディング (Percent-Encoding)
URL内の特殊文字をUTF-8バイトの16進2桁の前に%を付けて置き換えるエンコード方法。
Web & HTMLURL内のUnicode (Unicode in URLs & IRIs)
URLでUnicode文字がどう扱われるか:IRI(RFC 3987)、UTF-8バイトのパーセントエンコーディング、ブラウザ表示。
Programming & DevUTF-16
1文字あたり2バイトまたは4バイトを使用する文字エンコーディング。JavaScriptやJavaの内部処理で使用される。
EncodingUTF-32
1文字あたり4バイトを使用する固定幅エンコーディング。単純だがメモリ消費が大きい。
EncodingUTF-8
Unicodeコードポイントを表すために1〜4バイトを使用する可変幅文字エンコーディング。ウェブで最も広く使われているエンコーディングである。
EncodingWCAGテキスト代替 (WCAG Text Alternatives)
記号やアイコンを含む非テキストコンテンツにテキスト代替を要求するWCAG 1.1.1ガイドライン。
AccessibilityWebフォント (Web Fonts, @font-face)
CSS @font-faceルールで読み込まれるカスタムフォントで、システムインストールフォントを超えたリッチなタイポグラフィを実現する。
Web & HTMLWindows-1252
レガシーWindowsアプリケーションでデフォルト使用されるLatin-1のスーパーセット。0x80〜0x9F範囲に追加文字を含む。
EncodingWindows絵文字パネル (Windows Emoji Panel)
絵文字と特殊文字を閲覧・挿入できるWindowsユーティリティ(Win+.またはWin+;)。
Input Methodsエムダッシュ (Em Dash)
文字Mの幅のタイポグラフィダッシュ(—、U+2014)。挿入句や文の中断に使われる。
Typographyエンコーディング検出 (Encoding Detection)
BOM検出、ヒューリスティクス、chardetライブラリなどを含むテキストファイルの文字エンコーディング検出技法。
Programming & Devエンダッシュ (En Dash)
文字Nの幅のタイポグラフィダッシュ(–、U+2013)。範囲(例:1–10)や関係を示すのに使われる。
Typographyカーニング (Kerning)
視覚的な見栄えを改善するために特定の文字ペア間のスペーシングを調整すること(例:AV、To)。
Typographyカーリークォート (Curly Quotes, Smart Quotes)
タイポグラフィ的に正しい引用符(“ ” ‘ ’)。直線型の引用符(" ')とは異なる。
Typographyグリフ (Glyph)
特定のフォントによってレンダリングされる文字の視覚的表現。1つの文字がフォントによって複数のグリフを持つことがある。
Typographyコードポイント (Code Point)
Unicode規格で特定の文字に対応する数値。U+に続く16進数で表記される。
Unicode Standardコードポイント vs 文字 vs グリフ (Code Point vs Character vs Glyph)
3つの抽象化レベルの理解:コードポイント(数値)、文字(抽象概念)、グリフ(視覚的レンダリング)。
Programming & Devコンポーズキー (Compose Key)
Linux/Unixシステムで特殊文字を生成するマルチキーシーケンスを開始するキー(例:Compose + c + o → ©)。
Input Methodsサロゲートペア (Surrogate Pair)
UTF-16で基本多言語面(BMP)外の1文字を表すために使用される16ビットコードユニットのペア。
Encodingスクリーンリーダー (Screen Reader)
テキストやUI要素を音声で読み上げる支援技術。Unicode文字名が記号の読み上げに使用される。
Accessibilityスクリプト (Script)
文字がどの文字体系に属するかを示すUnicodeプロパティ(例:ラテン文字、ギリシャ文字、共通、継承)。
Unicode Standardゼロ幅スペース (Zero-Width Space)
不可視のUnicode文字(U+200B)で、可視的なスペースを表示せずに改行可能な位置を示す。
Typographyゼロ幅接合子 (Zero-Width Joiner, ZWJ)
隣接する文字を結合する不可視文字(U+200D)。絵文字シーケンスで合成絵文字を作成するのによく使われる。
Unicode Standardソフトハイフン (Soft Hyphen)
改行時に単語がハイフンで分割される位置を示す不可視文字(U+00AD)。それ以外では表示されない。
Typographyダイアクリティカルマーク (Diacritical Mark)
文字に付加されてその発音や意味を変えるマーク(例:アキュートアクセント é、ウムラウト ü、ティルデ ñ)。
Typographyデッドキー (Dead Keys)
すぐに文字を生成せず、次のキー入力を修飾するキーボードキー(例:´ → e → é)。
Input Methodsトラッキング (Letter Spacing, Tracking)
テキストブロック内のすべての文字間スペースを均一に調整すること。カーニングとは異なる。
Typographyノーブレークスペース (Non-Breaking Space)
その位置での自動改行を防ぎ、隣接する単語を一緒に保持するスペース文字(U+00A0)。
Typographyバイトオーダーマーク (Byte Order Mark, BOM)
ファイルのバイト順序とエンコーディング形式を示すためにファイル先頭に置かれる特殊なUnicode文字(U+FEFF)。
Encodingビュレット (Bullet Character)
リスト項目やテキスト装飾に使われるタイポグラフィ記号(•、U+2022)。
Typographyフォントフォールバック (Font Fallback)
プライマリフォントにある文字のグリフがないとき、ブラウザが代替フォントを使用するメカニズム。
Typographyユニコード (Unicode)
すべての文字体系の文字に固有の番号(コードポイント)を割り当てる普遍的な文字エンコーディング規格。
Unicode Standardリガチャ (Ligature)
2つ以上の文字を組み合わせた1つのグリフ(例:fi、fl)。タイポグラフィのリガチャ(フォント機能)とUnicodeリガチャ文字がある。
Typography一般カテゴリ (General Category)
各文字を分類するUnicodeプロパティ(例:Lu = 大文字、Sm = 数学記号、So = その他の記号)。
Unicode Standard入力メソッドエディタ (Input Method Editor, IME)
キーボードで直接入力できない文字の入力を可能にするソフトウェア。CJK、アラビア語などの複雑な文字体系に不可欠。
Input Methods全角・半角 (Fullwidth & Halfwidth)
CJKタイポグラフィで異なる幅を占める文字のバリエーション。全角文字はCJK表意文字と同じ幅を占める。
Typography共通ロケールデータリポジトリ (CLDR)
世界中で使用される日付・通貨・言語名のロケール固有の書式ルールを提供するプロジェクト。
Unicode Standard双方向テキスト (Bidirectional Text, Bidi)
左から右と右から左の書字方向が混在するテキスト。正しい表示にはUnicode双方向アルゴリズムが必要。
Unicode Standard国際化ドメイン名 (IDN)
非ASCII文字を含むドメイン名で、DNS互換性のためにPunycodeでエンコードされる。
Web & HTML基本多言語面 (Basic Multilingual Plane, BMP)
Unicodeの最初の65,536個のコードポイント(U+0000〜U+FFFF)で、最も一般的に使用される文字を含む。
Unicode Standard数学用英数字記号 (Mathematical Alphanumeric Symbols)
数学表記で使用されるスタイル付き文字と数字を含むUnicodeブロック(U+1D400〜U+1D7FF)。
Unicode Standard文字セット (Character Set, Charset)
コンピューティングシステムが認識する定義済みの文字集合。「エンコーディング」と互換的に使われることが多いが、厳密には異なる概念。
Encoding文字列長 vs 文字数 (String Length vs Character Count)
JavaScriptのstr.lengthが視覚的文字ではなくUTF-16コードユニット数を返す理由と、書記素を正しく数える方法。
Programming & Dev文字化け (Mojibake)
間違った文字エンコーディングでデータをデコードした際に生じる文字の乱れ。Latin-1とUTF-8の混在でよく発生する。
Encoding文字参照 (Character Reference)
数値(☃)や名前(©)で文字を挿入するHTMLマークアップ。特殊文字や予約文字に使用される。
Web & HTML書記素クラスタ (Grapheme Cluster)
複数のコードポイントで構成される場合があるユーザーが認識する文字単位(例:基底文字+結合マーク、国旗絵文字など)。
Unicode Standard書記素分割 (Grapheme Segmentation, UAX #29)
絵文字シーケンスや結合マークなどを処理し、テキストをユーザーが認識する文字単位に分割するUnicodeアルゴリズム。
Programming & Dev正規表現のUnicodeサポート (Regex Unicode Support)
JSの/uフラグ、Pythonのre.UNICODEなど、Unicode対応の正規表現の使い方。
Programming & Dev点字パターン (Braille Patterns)
8点点字セルのすべての組み合わせを表す256個のUnicode文字(U+2800〜U+28FF)。
Accessibility異体字セレクタ (Variation Selector)
前の文字の外見を変更するUnicode文字(U+FE00〜U+FE0F)。テキスト表示と絵文字表示の切り替えなどを含む。
Unicode Standard省略記号 (Ellipsis)
3つのドットを表す1つの文字(…、U+2026)。ピリオドを3回入力するよりも推奨される。
Typography私用領域 (Private Use Area)
フォントベンダーやアプリケーションが定義するカスタム文字のために予約されたUnicodeコードポイント範囲(U+E000〜U+F8FF等)。
Unicode Standard空白文字 (Whitespace Characters)
水平または垂直のスペースを表すが、可視グリフを持たない文字(スペース、タブ、改行など)。
Typography紛らわしい文字 (Confusables, Homoglyphs)
見た目が似ているか同一だが異なるコードポイントを持つ文字(例:ラテン「A」U+0041 vs キリル「А」U+0410)。
Unicode Standard結合文字 (Combining Character)
アクセントやダイアクリティカルマークなど、前の基底文字を修飾するUnicode文字。
Unicode Standard絵文字 (Emoji)
Unicodeで定義された絵文字記号。日本の携帯電話が起源で、現在は世界共通のビジュアルコミュニケーション手段となっている。
Unicode Standard罫線素片 (Box Drawing Characters)
テキストベースのインターフェースやターミナルエミュレータで表やボックスを描くために設計されたUnicode文字(U+2500〜U+257F)。
Typography置換文字 (Replacement Character)
デコーダが無効または認識できないバイトシーケンスに遭遇したときに表示されるダイヤモンド疑問符文字(U+FFFD、�)。
Encoding記号の代替テキスト (Alt Text for Symbols)
装飾的および意味のある記号文字に対してアクセシブルなテキスト代替を提供するベストプラクティス。
Accessibility豆腐 (Tofu, Missing Glyph)
フォントが文字をレンダリングできないときに表示される空の四角形(□)。豆腐に似ていることからこの名がついた。
Typography