Temperature & Sampling — 확률이 언어를 만든다

슬라이더로 temperature를 바꾸면 토큰 확률 분포가 실시간으로 변합니다. "바나나"가 뽑히는 순간 — Hallucination의 원리가 보입니다.

🎓 사전 계산 logit · temperature는 실시간 반영
입력 문장
오늘 날씨가 ___
다음 토큰 후보 — 확률 분포
좋다
43.0%
맑다
28.8%
흐리다
11.7%
춥다
5.8%
따뜻하다
4.8%
덥다
2.9%
비온다
2.1%
이상하다
0.6%
바나나
0.1%
반짝인다
0.1%
달린다
0.0%

경외 포인트. 슬라이더를 0.1로 내리면 "좋다"가 98%를 차지합니다. 모델은 안전하지만 지루합니다. 2.0으로 올리면 "바나나"나 "달린다"도 뽑힙니다. LLM이 "거짓말"을 하는 것이 아닙니다 — 이 trade-off 위에서 항상 확률적으로 선택하고 있을 뿐입니다. 창의성과 정확성은 같은 숫자 하나(temperature)가 결정합니다.

낮은 temperature는 안전하지만 지루하고, 높은 temperature는 창의적이지만 헛소리(바나나·반짝인다)가 섞입니다. ChatGPT가 "확신에 찬 말투로 틀린 정보"를 내놓는 것은 바로 이 메커니즘 때문입니다.

더 깊이 알고 싶다면: Hallucination 원리 →