토크나이저 — 한국어가 쪼개지는 방식

같은 의미의 한국어와 영어가 LLM 안에서 얼마나 다르게 분해되는지 확인하세요. 한국어는 영어 대비 2~4배 더 많은 토큰을 소비합니다.

예시 문장 선택

한국어 문장 입력

CLOVA API 키 미설정 — 프리셋은 기준값, 자유 입력 시 형태소 근사치를 표시합니다.

영어 vs 한국어 — 같은 의미, 다른 토큰 수 (tiktoken cl100k_base 기준)

문장	영어 토큰	한국어 토큰	배율

경외 포인트. "메트포르민 500mg을 하루 두 번 복용합니다" — tiktoken 기준 한국어 23 토큰, 같은 뜻의 영어는 11 토큰입니다. 같은 뜻인데 한국어는 토큰이 더 필요하다. 이게 곧 API 비용·속도·컨텍스트 한도의 차이다. 128,000 토큰 컨텍스트 창에 영어 문서는 훨씬 많이 들어가고, 한국어 약품 설명서를 통째로 넣으면 그만큼 더 빨리 한도에 도달합니다.

이는 모델이 한국어를 차별하는 것이 아닙니다. GPT-4의 cl100k_base는 영어 데이터를 기반으로 훈련된 BPE 사전을 씁니다. 한국어 유니코드(각 글자 3바이트)가 1~3개의 서브워드 토큰으로 쪼개지는 것은 단순히 사전 설계의 결과입니다. 한국어에 최적화된 토크나이저(CLOVA, HyperCLOVA X)를 쓰면 이 격차가 크게 줄어듭니다.