GEO

LLM-as-a-Judge

LLM-as-a-Judge는 하나의 언어 모델이 다른 모델(또는 자신의 이전 출력)의 결과를 루브릭에 따라 점수 매기거나 비교 평가하는 기법입니다. 개방형 QA·요약·챗봇 응답처럼 사람이 일일이 채점해야 했던 평가 작업을 대체합니다.

LLM-as-a-Judge는 하나의 언어 모델이 다른 모델(또는 자신의 이전 출력)의 결과를 루브릭에 따라 점수 매기거나 비교 평가하는 기법입니다. 개방형 QA·요약·챗봇 응답처럼 사람이 일일이 채점해야 했던 평가 작업을 대체합니다.

왜 중요한가

생성형 출력 평가는 LLM 기능 출시에서 가장 어려운 부분입니다. 사람이 주당 1만 건 응답을 채점하는 것은 비용이 감당되지 않고, 채점자 간 일치도도 낮습니다. 2023년 "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" 논문은 GPT-4를 판정자로 사용했을 때 인간 전문가와의 일치도가 약 85%로, 사람끼리의 일치도와 거의 같다는 것을 입증했습니다. 대부분의 평가 루프에서 사람을 대체해도 충분한 수준이며, 덕분에 저비용으로 연속 평가가 가능해졌습니다.

작동 원리

1. 루브릭 정의: 정확성·완결성·톤·안전성 같은 기준을 정의합니다. 1~5 스케일이나 Pass/Fail 이진 평가가 일반적입니다.

2. 판정자에게 프롬프트: 판정 모델에게 입력, 평가할 출력, 루브릭을 제공하고 점수와 근거를 요구합니다.

3. Pointwise vs Pairwise:

  • Pointwise: 단일 출력을 루브릭에 따라 점수화. 단순하지만 점수 스케일이 흔들리기 쉬움
  • Pairwise: 두 출력을 비교해 승자를 고름. 절대 점수보다 상대 판단이 더 안정적이라 신뢰도가 높음

4. 집계: 수많은 예제의 점수를 평균 내고, 프롬프트를 반복 개선할 때 시계열로 추적합니다.

어디에 잘 맞는가

프롬프트 A/B 테스트: "v2가 v1보다 좋은 답을 내는가?"는 Pairwise로 잘 풀리는 질문입니다.

RAG 품질 모니터링: 검색된 문맥이 실제로 사용됐고 사실에 기반했는지 점검합니다.

회귀 테스트: 프롬프트 변경 후 고정된 평가셋에 판정자를 돌려 품질 회귀를 감지합니다.

레드팀: 판정 LLM이 정책 위반을 대규모로 탐지합니다.

알려진 편향

위치 편향: Pairwise 비교에서 판정자는 첫 번째 응답을 더 선호하는 경향이 있습니다. 위치를 바꿔 두 번 평가한 뒤 평균을 내면 완화됩니다.

장황 편향(Verbosity): 답변이 길면 실제로 더 좋지 않아도 높게 평가됩니다. 길이를 루브릭에 명시적으로 반영해 통제합니다.

자기 선호: 모델은 자신이 만든 출력을 약간 더 높게 평가합니다. 가능하면 다른 계열 모델을 판정자로 사용합니다.

스케일 압축: 판정자는 점수를 중간값 쪽으로 몰리게 하는 경향이 있습니다. Pairwise 방식이 이 문제를 우회합니다.

프롬프트 민감도: 루브릭 문구의 작은 변경이 결과를 뒤집습니다. 검증된 판정 프롬프트는 잠가두는 것이 좋습니다.

베스트 프랙티스

판정 대상보다 더 강한 모델을 판정자로 사용합니다.

시드셋에서 사람 라벨과 검증: 대규모로 신뢰하기 전에 작은 시드 데이터셋에서 인간 평가와 비교합니다.

루브릭을 명시적으로 제시: 판정자가 "좋은"의 기준을 안다고 가정하지 않습니다.

근거 먼저, 점수 나중: Chain-of-Thought 방식으로 판정자가 이유를 먼저 설명하게 하면 점수가 더 안정적입니다.

고위험 결정은 Pairwise, 저비용 모니터링은 Pointwise로 나눠 씁니다.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

inblog의 AI 초안 생성 품질을 높이려면, 여러 프롬프트 버전을 사람이 일일이 비교하지 않고 LLM-as-a-Judge로 Pairwise 평가해 더 나은 버전을 채택하는 워크플로우가 효과적입니다. 'SEO 메타 설명 품질', '톤 일관성', '제목 매력도' 같은 루브릭을 만들어 판정 LLM에게 채점시키면, 블로그 초안 품질을 지속적으로 끌어올릴 수 있습니다.