GEO

RLHF

RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)는 사람이 직접 평가한 응답 선호도 데이터로 LLM의 행동을 원하는 방향으로 조정하는 학습 기법입니다. 사전 학습만 마친 LLM은 문법적으로 유창하지만 도움이 되지 않거나 위험한 답변을 하는 경우가 많은데, RLHF는 이 원시 모델을 '사람이 선호하는 대화 상대'로 바꾸는 정렬(Alignment) 단계의 표준 방법입니다.

RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화학습)는 사람이 직접 평가한 응답 선호도 데이터로 LLM의 행동을 원하는 방향으로 조정하는 학습 기법입니다. 사전 학습만 마친 LLM은 문법적으로 유창하지만 도움이 되지 않거나 위험한 답변을 하는 경우가 많은데, RLHF는 이 원시 모델을 '사람이 선호하는 대화 상대'로 바꾸는 정렬(Alignment) 단계의 표준 방법입니다.

왜 중요한가

2022년 ChatGPT가 대중의 관심을 사로잡은 핵심 비결이 RLHF였습니다. OpenAI의 InstructGPT 논문에 따르면 13억 파라미터 RLHF 모델이 175억 파라미터 기본 모델보다 사람의 선호도에서 더 높은 평가를 받았습니다. 즉 '모델을 더 크게'보다 '사람의 피드백으로 정렬'이 더 강력한 개선 지렛대입니다. Claude·GPT·Gemini·Llama 등 현대 상용 LLM 대부분이 어떤 형태로든 RLHF 또는 파생 기법을 거쳐 출시됩니다.

작동 3단계

1. 사전 학습(Pre-training): 대규모 텍스트 코퍼스로 다음 토큰 예측을 학습합니다. 이 단계의 모델은 지식은 풍부하지만 지시를 잘 따르지 못합니다.

2. 감독 미세조정(Supervised Fine-Tuning, SFT): 사람이 직접 작성한 '좋은 질문·좋은 답변' 예시로 미세조정합니다. 여기서 모델이 대화 포맷과 지시 따르기를 배웁니다.

3. 인간 피드백 강화학습(RLHF):

  • 보상 모델 학습: 사람에게 같은 질문에 대한 두 응답 중 어느 쪽이 더 나은지 평가하게 하고, 이 선호도 데이터로 '보상 모델'을 훈련합니다.
  • 강화학습 최적화: PPO(Proximal Policy Optimization) 같은 강화학습 알고리즘으로 LLM이 보상 모델의 점수를 최대화하도록 조정합니다.

최종 결과는 '기술적으로는 여전히 언어 모델이지만, 응답이 사람의 선호에 맞춰 조정된 모델'입니다.

RLHF가 해결하는 문제

유용성: "무엇이든 예측할 수 있지만 실제로는 쓸모없는 답변"을 "사용자가 실제로 원하는 답변"으로 전환.

안전성: 폭력·차별·불법적 내용 생성 거부를 학습.

정직성: 모르는 것을 만들어내기보다 "모른다"고 답하도록 유도(단, 완전 해결은 못 함 — 할루시네이션 참조).

톤과 포맷: 친근한 어투, 구조화된 응답, 한국어 존댓말 같은 스타일을 학습.

한계와 비판

보상 해킹(Reward Hacking): 모델이 보상 모델의 약점을 악용해 '사람이 좋다고 평가할 가능성이 높지만 실제로는 좋지 않은 응답'을 생성.

피드백 편향: 라벨링 작업자의 문화·관점이 보상 모델에 고착되어 특정 집단에 편향된 결과 발생.

과도한 정렬: 너무 신중해져 정당한 질문에도 답을 거부하는 '과잉 회피'.

비용: 양질의 인간 피드백 수집이 느리고 비싸며, 대규모로 유지하기 어렵습니다.

할루시네이션 한계: RLHF는 모델이 '자신 있게 답하기'를 선호하도록 유도하기 때문에, 오히려 할루시네이션을 증폭시킬 수 있다는 연구도 있습니다.

파생·대체 기법

DPO(Direct Preference Optimization): 보상 모델을 따로 학습하지 않고 선호도 데이터로 직접 LLM을 최적화하는 단순화 기법. 2023년 이후 RLHF를 빠르게 대체하는 추세.

Constitutional AI(CAI): Anthropic이 제안한 방식으로, 사람의 피드백 대신 '모델이 따라야 할 원칙 목록(Constitution)'으로 AI 자신이 응답을 비평하고 수정하게 하는 방법.

RLAIF(RL from AI Feedback): 인간 대신 다른 LLM이 선호도를 평가하는 방식. 비용은 낮지만 편향 위험이 큼.

GEO 관점의 시사점

RLHF 덕분에 현대 LLM은 '중립적·유용한 톤'을 선호하도록 정렬되어 있습니다. 따라서 블로그 콘텐츠가 AI 검색에 잘 인용되려면 선정적·과장된 표현이 아닌 '담백한 정보 전달 톤'이 유리합니다. 또한 RLHF가 출처와 겸손한 불확실성 표현을 보상하도록 학습되어 있으므로, 출처를 명시한 구체적 사실 중심 콘텐츠가 인용 후보로 선택될 확률이 높습니다.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

RLHF로 정렬된 LLM이 선호하는 콘텐츠 특징은 담백한 정보 전달, 명확한 출처, 적절한 불확실성 표현입니다. inblog로 블로그를 작성할 때 과장된 마케팅 표현보다 사실 중심의 담백한 서술을 사용하면, AI 검색이 해당 블로그를 반복적으로 참조하는 '안정적 소스'로 인식합니다.