Unicode 및 타이포그래피 용어집 — Key Terms

유니코드 16진수 입력 (Unicode Hex Input)

Option 키를 누른 채 16진수 코드 포인트를 입력하여 문자를 입력할 수 있는 macOS 키보드 레이아웃.

Input Methods

Alt 코드 (Alt Code)

Windows에서 Alt 키를 누른 채 넘버패드에 숫자 코드를 입력하여 문자를 입력하는 방법 (예: Alt+0169 → ©).

Input Methods

기호의 대체 텍스트 (Alt Text for Symbols)

장식용 및 의미 있는 기호 문자에 대해 접근 가능한 텍스트 대안을 제공하는 모범 사례.

Accessibility

ARIA 레이블 (ARIA Label)

요소에 접근 가능한 이름을 제공하는 HTML 속성으로, 기호가 많이 사용되는 UI를 스크린 리더에서 사용할 수 있게 만드는 데 필수적이다.

Web & HTML

ASCII (아스키)

영문 알파벳, 숫자, 구두점 등 128개 문자를 포함하는 7비트 인코딩. 미국 정보 교환 표준 부호.

Encoding

기본 다국어 평면 (Basic Multilingual Plane, BMP)

유니코드의 처음 65,536개 코드 포인트(U+0000~U+FFFF)로, 가장 많이 사용되는 문자를 포함한다.

Unicode Standard

양방향 텍스트 (Bidirectional Text, Bidi)

왼쪽에서 오른쪽 및 오른쪽에서 왼쪽 쓰기 방향을 혼합하는 텍스트로, 올바른 표시를 위해 유니코드 양방향 알고리즘이 필요하다.

Unicode Standard

상자 그리기 문자 (Box Drawing Characters)

텍스트 기반 인터페이스 및 터미널 에뮬레이터에서 상자와 표를 그리기 위해 설계된 유니코드 문자(U+2500~U+257F).

Typography

점자 패턴 (Braille Patterns)

8점 점자 셀의 모든 가능한 조합을 나타내는 256개의 유니코드 문자(U+2800~U+28FF).

Accessibility

불릿 기호 (Bullet Character)

목록 항목과 텍스트 장식에 사용되는 타이포그래피 기호(•, U+2022).

Typography

바이트 순서 표시 (Byte Order Mark, BOM)

파일의 바이트 순서와 인코딩 형식을 나타내기 위해 파일 시작 부분에 위치하는 특수 유니코드 문자(U+FEFF).

Encoding

문자 참조 (Character Reference)

숫자(☃) 또는 이름(©)으로 문자를 삽입하는 HTML 마크업으로, 특수 문자나 예약 문자에 사용된다.

Web & HTML

문자 집합 (Character Set, Charset)

컴퓨팅 시스템이 인식하는 정의된 문자 집합. '인코딩'과 혼용되기도 하지만 기술적으로는 다른 개념이다.

Encoding

CJK (중국어·일본어·한국어)

중국어, 일본어, 한국어의 약칭으로, 이 세 언어가 공유하는 통합 표의 문자 집합을 가리킨다.

Unicode Standard

공통 로케일 데이터 저장소 (CLDR)

전 세계에서 사용되는 날짜, 통화, 언어 이름의 로케일별 서식 규칙을 제공하는 프로젝트.

Unicode Standard

코드 포인트 (Code Point)

유니코드 표준에서 특정 문자에 대응하는 수치로, U+ 뒤에 16진수가 붙는 형식으로 표기한다.

Unicode Standard

결합 문자 (Combining Character)

악센트나 발음 구별 부호 등 앞의 기본 문자를 수정하는 유니코드 문자.

Unicode Standard

조합 키 (Compose Key)

Linux/Unix 시스템에서 특수 문자를 생성하기 위한 다중 키 시퀀스를 시작하는 키 (예: Compose + c + o → ©).

Input Methods

혼동 문자 (Confusables, Homoglyphs)

모양이 유사하거나 동일하지만 서로 다른 코드 포인트를 가진 문자 (예: 라틴 'A' U+0041 vs 키릴 'А' U+0410).

Unicode Standard

CSS content 속성 (CSS content Property)

요소 앞이나 뒤에 콘텐츠를 삽입하는 CSS 속성으로, 유니코드 이스케이프 시퀀스와 함께 자주 사용된다.

Web & HTML

둥근 따옴표 (Curly Quotes, Smart Quotes)

타이포그래피적으로 올바른 따옴표(“ ” ‘ ’)로, 직선 따옴표(" ')와 구분된다.

Typography

데드 키 (Dead Keys)

즉시 문자를 생성하지 않고 다음 키 입력을 수정하는 키보드 키 (예: ´ → e → é).

Input Methods

발음 구별 부호 (Diacritical Mark)

문자에 추가되어 발음이나 의미를 변경하는 표시 (예: 양음 부호 é, 움라우트 ü, 틸데 ñ).

Typography

말줄임표 (Ellipsis)

세 개의 점을 나타내는 단일 문자(…, U+2026)로, 마침표 세 개를 연속으로 입력하는 것보다 권장된다.

Typography

엠 대시 (Em Dash)

문자 M 너비의 타이포그래피 대시(—, U+2014)로, 삽입구나 문장의 중단에 사용된다.

Typography

이모지 (Emoji)

유니코드에서 정의된 그림 문자 기호로, 원래 일본 휴대전화에서 시작되어 현재 보편적인 시각적 커뮤니케이션 수단이 되었다.

Unicode Standard

인코딩 감지 (Encoding Detection)

BOM 탐지, 휴리스틱, chardet 라이브러리 등을 포함한 텍스트 파일의 문자 인코딩 감지 기법.

Programming & Dev

엔 대시 (En Dash)

문자 N 너비의 타이포그래피 대시(–, U+2013)로, 범위(예: 1–10)와 관계를 나타내는 데 사용된다.

Typography

글꼴 대체 (Font Fallback)

기본 글꼴에 특정 문자의 글리프가 없을 때 브라우저가 대체 글꼴을 사용하는 메커니즘.

Typography

전각 및 반각 (Fullwidth & Halfwidth)

CJK 타이포그래피에서 서로 다른 너비를 차지하는 문자 변형. 전각 문자는 CJK 표의 문자와 동일한 공간을 차지한다.

Typography

일반 범주 (General Category)

각 문자를 분류하는 유니코드 속성 (예: Lu = 대문자, Sm = 수학 기호, So = 기타 기호).

Unicode Standard

글리프 (Glyph)

특정 글꼴에 의해 렌더링되는 문자의 시각적 표현. 하나의 문자가 글꼴에 따라 여러 글리프를 가질 수 있다.

Typography

자소 클러스터 (Grapheme Cluster)

여러 코드 포인트로 구성될 수 있는 사용자가 인식하는 문자 단위 (예: 기본 문자 + 결합 부호, 국기 이모지 등).

Unicode Standard

자소 분절 (Grapheme Segmentation, UAX #29)

이모지 시퀀스, 결합 부호 등을 처리하여 텍스트를 사용자가 인식하는 문자 단위로 분할하는 유니코드 알고리즘.

Programming & Dev

HTML 엔티티 (HTML Entity)

&로 시작하고 ;로 끝나는 문자열로, HTML에서 예약 문자나 특수 문자를 표시하는 데 사용된다 (예: & → &).

Web & HTML

국제화 도메인 이름 (IDN)

비ASCII 문자를 포함하는 도메인 이름으로, DNS 호환을 위해 퓨니코드로 인코딩된다.

Web & HTML

IDN 호모그래프 공격 (IDN Homograph Attack)

정당한 사이트를 사칭하기 위해 도메인 이름에 시각적으로 유사한 유니코드 문자를 사용하는 피싱 기법.

Programming & Dev

입력기 (Input Method Editor, IME)

키보드에서 직접 입력할 수 없는 문자를 입력할 수 있게 하는 소프트웨어로, CJK, 아랍어 등의 복잡한 문자 체계에 필수적이다.

Input Methods

JavaScript 문자열과 코드 포인트 (JS String & Code Points)

유니코드를 위한 JS String 메서드: codePointAt(), String.fromCodePoint(), 자소 반복을 위한 스프레드 연산자.

Programming & Dev

커닝 (Kerning)

시각적 외관 개선을 위해 특정 문자 쌍 사이의 간격을 조정하는 것 (예: AV, To).

Typography

Latin-1 (ISO 8859-1)

서유럽 언어를 위한 단일 바이트 인코딩으로, 256개 문자(U+0000~U+00FF)를 포함한다.

Encoding

자간 (Letter Spacing, Tracking)

텍스트 블록 내 모든 문자 사이의 간격을 균일하게 조정하는 것으로, 커닝과는 구분된다.

Typography

합자 (Ligature)

두 개 이상의 문자를 결합한 단일 글리프 (예: fi, fl). 타이포그래피 합자(글꼴 기능)와 유니코드 합자 문자가 있다.

Typography

macOS 문자 뷰어 (macOS Character Viewer)

유니코드 문자와 이모지를 탐색하고 삽입할 수 있는 macOS 내장 유틸리티 (Ctrl+Cmd+Space).

Input Methods

수학 영숫자 기호 (Mathematical Alphanumeric Symbols)

수학 표기법에 사용되는 스타일 문자와 숫자를 포함하는 유니코드 블록(U+1D400~U+1D7FF).

Unicode Standard

모지바케 (Mojibake)

잘못된 문자 인코딩으로 데이터를 디코딩할 때 발생하는 깨진 텍스트. Latin-1과 UTF-8을 혼용할 때 흔히 발생한다.

Encoding

줄바꿈 방지 공백 (Non-Breaking Space)

해당 위치에서 자동 줄 바꿈을 방지하여 인접한 단어를 함께 유지하는 공백 문자(U+00A0).

Typography

유니코드 속성 이스케이프 (\p{})

유니코드 속성으로 문자를 매칭하는 정규식 구문(\p{Script=Greek}, \p{Letter}). JS, Java, Python 등에서 지원된다.

Programming & Dev

사용자 정의 영역 (Private Use Area)

글꼴 제조사나 애플리케이션이 정의한 맞춤 문자를 위해 예약된 유니코드 코드 포인트 범위(U+E000~U+F8FF 등).

Unicode Standard

퓨니코드 (Punycode)

유니코드 문자열을 ASCII 문자로 표현하기 위한 인코딩 구문으로, 국제화 도메인 이름(IDN)에서 사용된다.

Web & HTML

Python unicodedata 모듈 (Python unicodedata)

유니코드 문자 이름, 범주, 속성을 조회할 수 있는 Python 표준 라이브러리 모듈.

Programming & Dev

정규식 유니코드 지원 (Regex Unicode Support)

JS의 /u 플래그, Python의 re.UNICODE 등 유니코드 인식 정규 표현식 사용법.

Programming & Dev

대체 문자 (Replacement Character)

디코더가 잘못되거나 인식할 수 없는 바이트 시퀀스를 만났을 때 표시되는 다이아몬드 물음표 문자(U+FFFD, �).

Encoding

스크린 리더 (Screen Reader)

텍스트와 UI 요소를 음성으로 읽어주는 보조 기술. 유니코드 문자 이름이 기호 발음에 사용된다.

Accessibility

스크립트 (Script)

문자가 속하는 문자 체계를 나타내는 유니코드 속성 (예: 라틴, 그리스, 공용, 상속).

Unicode Standard

소프트 하이픈 (Soft Hyphen)

줄 바꿈 시 단어가 하이픈으로 나뉠 수 있는 위치를 표시하는 보이지 않는 문자(U+00AD).

Typography

서로게이트 쌍 (Surrogate Pair)

UTF-16에서 기본 다국어 평면(BMP) 밖의 단일 문자를 나타내기 위해 사용되는 한 쌍의 16비트 코드 유닛.

Encoding

두부 문자 (Tofu, Missing Glyph)

글꼴이 문자를 렌더링할 수 없을 때 표시되는 빈 사각형(□)으로, 두부를 닮아 이런 이름이 붙었다.

Typography

유니코드 (Unicode)

전 세계 모든 문자 체계의 문자에 고유한 번호(코드 포인트)를 부여하는 범용 문자 인코딩 표준.

Unicode Standard

유니코드 블록 (Unicode Block)

유니코드 표준에서 정의한 연속된 코드 포인트 범위로, 관련 문자들을 그룹화한다 (예: '화살표' 블록: U+2190~U+21FF).

Unicode Standard

유니코드 조합 (Unicode Collation)

유니코드 조합 알고리즘(UCA, UTS #10)을 사용하여 언어별 규칙에 따라 텍스트를 정렬하는 것.

Programming & Dev

유니코드 컨소시엄 (Unicode Consortium)

유니코드 표준을 개발하고 유지 관리하는 비영리 단체로, 매년 새로운 문자를 추가한다.

Unicode Standard

유니코드 이스케이프 시퀀스 (Unicode Escape Sequence)

프로그래밍 언어에서 코드 포인트로 문자를 나타내는 방법 (JS/Java: \u2603, ES6+: \u{2603}, Python: \U00002603).

Encoding

유니코드 정규화 (Unicode Normalization)

일관된 비교와 저장을 위해 유니코드 텍스트를 표준 형식(NFC, NFD, NFKC, NFKD)으로 변환하는 과정.

Encoding

유니코드 평면 (Unicode Plane)

연속된 65,536개 코드 포인트의 그룹. 유니코드에는 17개 평면(0~16)이 있으며, 평면 0이 BMP이다.

Unicode Standard

unicode-range (CSS)

웹 폰트가 커버하는 유니코드 코드 포인트 범위를 지정하는 CSS 디스크립터로, 글꼴 서브세팅을 가능하게 한다.

Web & HTML

유니코드 샌드위치 패턴 (Unicode Sandwich Pattern)

바이트 디코딩 → 유니코드로 텍스트 처리 → 바이트 인코딩의 프로그래밍 모범 사례.

Programming & Dev

유니코드 버전 (Unicode Version)

새로운 문자, 스크립트, 이모지를 추가하는 유니코드 표준의 번호가 매겨진 릴리스 (예: 16.0).

Unicode Standard

유니한 데이터베이스 (Unihan Database)

유니코드 컨소시엄이 관리하는 CJK 표의 문자의 음가, 의미, 이체자 정보를 담은 종합 데이터베이스.

Unicode Standard

URL 인코딩 (Percent-Encoding)

URL에서 특수 문자를 UTF-8 바이트의 16진수 두 자리 앞에 %를 붙여 인코딩하는 방법.

Web & HTML

URL 내 유니코드 (Unicode in URLs & IRIs)

URL에서 유니코드 문자가 처리되는 방식: IRI(RFC 3987), UTF-8 바이트의 퍼센트 인코딩, 브라우저 표시.

Programming & Dev

UTF-16

문자당 2바이트 또는 4바이트를 사용하는 문자 인코딩. JavaScript와 Java에서 내부적으로 사용된다.

Encoding

UTF-32

문자당 4바이트를 사용하는 고정 폭 인코딩. 단순하지만 메모리 사용량이 많다.

Encoding

UTF-8

유니코드 코드 포인트를 나타내기 위해 1~4바이트를 사용하는 가변 길이 문자 인코딩. 웹에서 가장 널리 사용되는 인코딩이다.

Encoding

변형 선택자 (Variation Selector)

앞의 문자의 외형을 변경하는 유니코드 문자(U+FE00~U+FE0F)로, 텍스트와 이모지 표현 전환 등을 포함한다.

Unicode Standard

문자열 길이 vs 문자 수 (String Length vs Character Count)

JavaScript의 str.length가 시각적 문자가 아닌 UTF-16 코드 유닛을 반환하는 이유와 자소를 올바르게 세는 방법.

Programming & Dev

코드 포인트 vs 문자 vs 글리프 (Code Point vs Character vs Glyph)

세 가지 추상화 수준의 이해: 코드 포인트(숫자), 문자(추상적 개념), 글리프(시각적 렌더링).

Programming & Dev

WCAG 텍스트 대안 (WCAG Text Alternatives)

기호와 아이콘을 포함한 비텍스트 콘텐츠에 텍스트 대안을 요구하는 WCAG 1.1.1 지침.

Accessibility

웹 폰트 (Web Fonts, @font-face)

CSS @font-face 규칙을 통해 로드되는 사용자 정의 글꼴로, 시스템에 설치된 글꼴을 넘어 풍부한 타이포그래피를 가능하게 한다.

Web & HTML

공백 문자 (Whitespace Characters)

수평 또는 수직 공간을 나타내지만 눈에 보이는 글리프가 없는 문자 (공백, 탭, 개행 등).

Typography

Windows-1252

레거시 Windows 애플리케이션에서 기본으로 사용되는 Latin-1의 상위 집합으로, 0x80~0x9F 범위에 추가 문자를 포함한다.

Encoding

Windows 이모지 패널 (Windows Emoji Panel)

이모지와 특수 문자를 탐색하고 삽입할 수 있는 Windows 유틸리티 (Win+. 또는 Win+;).

Input Methods

제로 폭 접합자 (Zero-Width Joiner, ZWJ)

인접한 문자를 결합하는 보이지 않는 문자(U+200D)로, 이모지 시퀀스에서 조합 이모지를 만드는 데 흔히 사용된다.

Unicode Standard

제로 폭 공백 (Zero-Width Space)

눈에 보이지 않는 유니코드 문자(U+200B)로, 줄 바꿈이 가능한 지점을 나타내되 실제 공백은 표시하지 않는다.

Typography