M1S1823분 등장

RLHF

알엘에이치에프

사람의 피드백으로 AI를 더 안전하게 Fine-tuning하는 기법

💊 약사 비유

약사 선생님이 '이 복약지도 표현이 더 좋아'라고 피드백할 때마다 AI가 그쪽으로 가중치를 조정하는 방식

📍 강의 슬라이드 참조
S18