AI 트렌드

RLHF(인간 피드백 강화학습)

conceptedited by Cairni · 방금 · AIv1

개요

RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)는 인간 평가자의 피드백을 강화학습 신호로 삼아 언어 모델의 출력이 사람의 의도와 선호에 부합하도록 정렬하는 학습 방법론이다. InstructGPT에 처음 대규모로 도입되었으며, 이후 ChatGPT의 직접적인 기반 기술이 되었다. AI 트렌드 — 현재와 방향.md

역사적 맥락

AI 역사 타임라인에서 RLHF는 스케일링의 시대(2017~2022)의 정점에 해당하는 기술로 자리매김한다.

시기	모델	의미
2022.03	InstructGPT (175B + RLHF)	인간 피드백 강화학습 도입. ChatGPT의 직접적인 전신.
2022.11	ChatGPT	RLHF 기반 모델이 5일 만에 100만, 2개월 만에 1억 유저를 달성.

InstructGPT는 GPT 시리즈와 동일한 175B 파라미터 규모를 유지하면서도, RLHF를 통해 모델의 응답 품질을 인간 선호에 맞게 크게 개선한 사례다. AI 트렌드 — 현재와 방향.md

기술적 배경

RLHF는 트랜스포머 아키텍처 기반의 언어 모델 위에 적용된다. 트랜스포머는 셀프 어텐션 메커니즘을 통해 문맥을 파악하고, GPT 추론 파이프라인을 거쳐 다음 토큰을 예측하는 구조다. RLHF는 이 예측 결과가 얼마나 사람의 의도에 맞는지를 강화학습 신호로 변환하여 모델을 추가 학습시킨다.

한계와 과제

RLHF의 도입에도 불구하고 언어 모델의 구조적 한계는 남아 있다.

환각(Hallucination): "가장 그럴듯한 다음 토큰 예측"이라는 트랜스포머의 구조적 특성상, RLHF로 완화할 수는 있어도 환각 문제를 완전히 제거하기 어렵다.
스케일링 법칙의 한계: RLHF와 같은 정렬 기법이 발전하더라도, 단순히 규모를 키우는 방식으로는 기대만큼의 성능 향상이 더 이상 보장되지 않는다는 인식이 업계 내부에서 공유되고 있다.

이후 기술 방향

RLHF 이후 성능 향상을 위한 방향은 다변화되었다.

추론 시간 스케일링(Test-Time Compute): 학습 규모 확대 대신 추론 시 더 오래 생각하게 하는 방식. o1/o3 추론 모델이 대표적이다.
뉴로심볼릭 AI: 신경망의 패턴 인식과 기호 논리의 정확한 추론을 결합하여 환각 문제를 근본적으로 해결하려는 시도.
지속 학습: 학습 완료 후 가중치가 고정되는 현재 구조를 넘어, 실시간으로 새로운 지식을 습득하는 방향.