GEO

모델 디스틸레이션

모델 디스틸레이션(Model Distillation)은 작은 '학생(student)' 모델이 훨씬 큰 '교사(teacher)' 모델을 — 원본 라벨이 아니라 교사의 출력(또는 내부 확률 분포)으로 학습해 — 모방하도록 훈련하는 기법입니다. 결과는 교사의 능력 대부분을 가지면서도 크기·지연·비용은 일부분인 모델입니다.

모델 디스틸레이션(Model Distillation)은 작은 '학생(student)' 모델이 훨씬 큰 '교사(teacher)' 모델을 — 원본 라벨이 아니라 교사의 출력(또는 내부 확률 분포)으로 학습해 — 모방하도록 훈련하는 기법입니다. 결과는 교사의 능력 대부분을 가지면서도 크기·지연·비용은 일부분인 모델입니다.

왜 중요한가

프런티어 vs 저렴 트레이드오프는 잔혹했습니다: 5% 더 똑똑한 모델에 10배를 내거나, 포기하거나. 디스틸레이션이 그 격차를 좁힙니다. GPT-4o-mini·Claude Haiku·Gemini Flash·Llama 3 8B Instruct — 주요 랩의 모든 '작고 빠르고 저렴한' 티어는 실질적으로 플래그십 모델의 디스틸 후손입니다. 디스틸레이션은 또한 특수화의 선호 방식입니다: 고객 지원 트랜스크립트로 GPT-4에서 디스틸한 7B 모델은 그 한 과제에서 원본을 이기면서 서빙 비용은 1/100입니다. 빌더에게 디스틸레이션은 "어떤 모델을 쓸까"의 프레임을 "감당할 수 있는 가장 큰 것"에서 "내 일을 여전히 해내는 가장 작은 모델은?"으로 바꿉니다.

작동 원리

1. 교사 선택: 보통 크고 유능한 모델(GPT-4·Claude Opus·Llama 70B).

2. 훈련 데이터 생성: 둘 중 하나:

  • 출력 디스틸레이션: 교사를 큰 입력 세트에 돌리고 응답을 저장. (입력, 교사 응답) 쌍으로 학생을 훈련.
  • 로짓 디스틸레이션: 각 토큰에서 교사의 어휘 전체 확률 분포(soft targets)를 캡처해 학생이 일치하도록 훈련.

3. 학생 훈련: 표준 지도 파인튜닝, 단 교사 출력을 라벨로 사용. 학생의 손실은 인간 라벨 정답이 아니라 교사 출력과의 발산.

4. 선택적 과제 집중: 특정 도메인(코드·챗·수학·고객 지원) 데이터로 디스틸해 특수화 소형 모델을 만듭니다.

5. 평가: 보류 벤치마크에서 학생 vs 교사 비교. 비용의 10% 미만에 교사 품질의 80~95%를 목표로.

출력 vs 로짓 디스틸레이션

항목출력(응답) 디스틸레이션로짓(soft-target) 디스틸레이션
데이터교사의 텍스트 출력만교사의 전체 토큰 확률
필요 접근API만원시 모델 가중치 필요
품질양호더 좋음(토큰당 신호가 더 많음)
비용저렴더 비쌈(캡처 비용)
활용클로즈드 API에서 디스틸오픈/자체 모델에서 디스틸

대부분 팀이 출력 디스틸레이션을 합니다 — GPT-4·Claude의 가중치 수준 접근이 없기 때문입니다. 로짓 디스틸레이션은 학술 표준이지만 오픈 모델이 필요합니다.

유명 디스틸 모델

DistilBERT(Hugging Face, 2019): 원조. BERT 크기의 60%, 성능의 95%, 60% 더 빠름.

Alpaca / Vicuna(Stanford / LMSYS, 2023): GPT-3.5 출력에서 디스틸한 Llama. 작은 지시 따르기 모델을 저렴하게 만듦.

GPT-4o-mini·Claude Haiku·Gemini Flash: 각자의 플래그십에서 디스틸했다고 알려져 있으나 세부는 비공개.

Llama 3.2 1B / 3B: Meta의 소형 모델, 더 큰 Llama에서 온디바이스용으로 디스틸.

DeepSeek-R1-Distill(2025): DeepSeek-R1의 추론을 더 작은 Llama·Qwen 베이스로 디스틸한 오픈 버전.

TinyLlama·Phi-3: 디스틸레이션 스타일 기법으로 훈련되어 파라미터 무게보다 큰 펀치를 내는 소형 모델.

디스틸레이션을 쓰는 경우

비용 중심 제품: 품질의 대부분이 필요하지만 매 요청에 GPT-4·Claude Opus를 감당할 수 없음.

지연 민감 UX: 응답이 1초 미만이어야 하는 챗 어시스턴트.

특수화: 좁은 과제(의도 분류·JSON 추출·코드 자동완성)에서 작은 파인튜닝 모델이 일반 플래그십을 이김.

온디바이스·에어갭: 70B 모델 실행이 불가능한 환경.

고볼륨 배치 처리: 일일 수백만 건 문서 분류 — 플래그십은 너무 비쌈.

쓰지 않는 경우

교사 데이터 부족: 최소 수천 개의 고품질 (입력, 교사 출력) 쌍이 필요.

오픈엔디드 창작 과제: 디스틸 모델은 종종 뉘앙스와 창의성을 잃음.

프런티어 추론: 수학·코딩·복잡 추론은 여전히 실제 프런티어 모델을 돌리는 게 유리.

빠르게 변하는 도메인: 디스틸 모델은 스냅샷. 도메인이 매주 바뀌면 디스틸이 뒤처짐.

트레이드오프

품질 천장: 학생은 교사를 능가할 수 없습니다. 디스틸레이션은 이전이지 창조가 아닙니다.

낯선 입력에 취약: 작은 모델은 일반화가 약함. 분포 밖 입력에서 빠르게 저하.

편향 상속: 교사의 편향(과 오류·할루시네이션)이 학생에 굽혀집니다.

API 비용 선납: 클로즈드 API에서 디스틸하려면 데이터 생성 단계에서 수천 회의 교사 추론 비용을 지불해야 합니다.

컴플라이언스 리스크: 일부 클로즈드 API ToS는 출력으로 경쟁 모델 훈련을 금지합니다. 약관을 읽으세요.

흔한 실수

평가 없이 디스틸: 보류 벤치마크 없이는 학생이 교사를 따라잡았는지 알 수 없음.

작은 학생, 복잡한 교사: 1B 학생이 175B 교사 행동을 다 담지 못합니다. 야망에 규모를 맞추세요.

데이터 품질 무시: 나쁜 교사 출력(할루시네이션·과제 이탈)은 학생의 나쁜 행동으로 굳어집니다.

특수화 부재: 일반 모델에서 일반 모델을 디스틸하면 종종 더 나쁜 일반 모델이 됩니다. 과제를 위해 디스틸하세요.

컴플라이언스 사각: 경쟁사 API 출력으로 조용히 훈련하는 것은 법적 시한폭탄입니다. ToS 확인.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

inblog의 AI 초안 생성은 작업 유형별로 디스틸된 소형 모델과 플래그십 모델을 라우팅합니다 — 메타 설명·태그 같은 단순 작업은 디스틸 소형 모델로 즉시 처리해 비용을 낮추고, 장문 기술 글의 사실 검증은 플래그십으로 라우팅. 사용자는 같은 비용 예산에서 더 많은 초안을 생성하면서도 품질이 중요한 지점에선 최고 모델을 받게 됩니다.