M1S1720분 등장
Transformer
트랜스포머
Attention을 수십 층 쌓아 만든 LLM의 기본 구조
💊 약사 비유
DUR 검토 한 번이 Attention 한 층 — 이걸 수십 층 반복해 최종 처방 판단(다음 토큰)을 내리는 구조
📍 강의 슬라이드 참조
S17
트랜스포머
Attention을 수십 층 쌓아 만든 LLM의 기본 구조
DUR 검토 한 번이 Attention 한 층 — 이걸 수십 층 반복해 최종 처방 판단(다음 토큰)을 내리는 구조