M1S1823분 등장
RLHF
알엘에이치에프
사람의 피드백으로 AI를 더 안전하게 Fine-tuning하는 기법
💊 약사 비유
약사 선생님이 '이 복약지도 표현이 더 좋아'라고 피드백할 때마다 AI가 그쪽으로 가중치를 조정하는 방식
📍 강의 슬라이드 참조
S18
알엘에이치에프
사람의 피드백으로 AI를 더 안전하게 Fine-tuning하는 기법
약사 선생님이 '이 복약지도 표현이 더 좋아'라고 피드백할 때마다 AI가 그쪽으로 가중치를 조정하는 방식