모델 디스틸레이션
모델 디스틸레이션(Model Distillation)은 작은 '학생(student)' 모델이 훨씬 큰 '교사(teacher)' 모델을 — 원본 라벨이 아니라 교사의 출력(또는 내부 확률 분포)으로 학습해 — 모방하도록 훈련하는 기법입니다. 결과는 교사의 능력 대부분을 가지면서도 크기·지연·비용은 일부분인 모델입니다.
모델 디스틸레이션(Model Distillation)은 작은 '학생(student)' 모델이 훨씬 큰 '교사(teacher)' 모델을 — 원본 라벨이 아니라 교사의 출력(또는 내부 확률 분포)으로 학습해 — 모방하도록 훈련하는 기법입니다. 결과는 교사의 능력 대부분을 가지면서도 크기·지연·비용은 일부분인 모델입니다.
왜 중요한가
프런티어 vs 저렴 트레이드오프는 잔혹했습니다: 5% 더 똑똑한 모델에 10배를 내거나, 포기하거나. 디스틸레이션이 그 격차를 좁힙니다. GPT-4o-mini·Claude Haiku·Gemini Flash·Llama 3 8B Instruct — 주요 랩의 모든 '작고 빠르고 저렴한' 티어는 실질적으로 플래그십 모델의 디스틸 후손입니다. 디스틸레이션은 또한 특수화의 선호 방식입니다: 고객 지원 트랜스크립트로 GPT-4에서 디스틸한 7B 모델은 그 한 과제에서 원본을 이기면서 서빙 비용은 1/100입니다. 빌더에게 디스틸레이션은 "어떤 모델을 쓸까"의 프레임을 "감당할 수 있는 가장 큰 것"에서 "내 일을 여전히 해내는 가장 작은 모델은?"으로 바꿉니다.
작동 원리
1. 교사 선택: 보통 크고 유능한 모델(GPT-4·Claude Opus·Llama 70B).
2. 훈련 데이터 생성: 둘 중 하나:
- 출력 디스틸레이션: 교사를 큰 입력 세트에 돌리고 응답을 저장. (입력, 교사 응답) 쌍으로 학생을 훈련.
- 로짓 디스틸레이션: 각 토큰에서 교사의 어휘 전체 확률 분포(soft targets)를 캡처해 학생이 일치하도록 훈련.
3. 학생 훈련: 표준 지도 파인튜닝, 단 교사 출력을 라벨로 사용. 학생의 손실은 인간 라벨 정답이 아니라 교사 출력과의 발산.
4. 선택적 과제 집중: 특정 도메인(코드·챗·수학·고객 지원) 데이터로 디스틸해 특수화 소형 모델을 만듭니다.
5. 평가: 보류 벤치마크에서 학생 vs 교사 비교. 비용의 10% 미만에 교사 품질의 80~95%를 목표로.
출력 vs 로짓 디스틸레이션
| 항목 | 출력(응답) 디스틸레이션 | 로짓(soft-target) 디스틸레이션 |
|---|---|---|
| 데이터 | 교사의 텍스트 출력만 | 교사의 전체 토큰 확률 |
| 필요 접근 | API만 | 원시 모델 가중치 필요 |
| 품질 | 양호 | 더 좋음(토큰당 신호가 더 많음) |
| 비용 | 저렴 | 더 비쌈(캡처 비용) |
| 활용 | 클로즈드 API에서 디스틸 | 오픈/자체 모델에서 디스틸 |
대부분 팀이 출력 디스틸레이션을 합니다 — GPT-4·Claude의 가중치 수준 접근이 없기 때문입니다. 로짓 디스틸레이션은 학술 표준이지만 오픈 모델이 필요합니다.
유명 디스틸 모델
DistilBERT(Hugging Face, 2019): 원조. BERT 크기의 60%, 성능의 95%, 60% 더 빠름.
Alpaca / Vicuna(Stanford / LMSYS, 2023): GPT-3.5 출력에서 디스틸한 Llama. 작은 지시 따르기 모델을 저렴하게 만듦.
GPT-4o-mini·Claude Haiku·Gemini Flash: 각자의 플래그십에서 디스틸했다고 알려져 있으나 세부는 비공개.
Llama 3.2 1B / 3B: Meta의 소형 모델, 더 큰 Llama에서 온디바이스용으로 디스틸.
DeepSeek-R1-Distill(2025): DeepSeek-R1의 추론을 더 작은 Llama·Qwen 베이스로 디스틸한 오픈 버전.
TinyLlama·Phi-3: 디스틸레이션 스타일 기법으로 훈련되어 파라미터 무게보다 큰 펀치를 내는 소형 모델.
디스틸레이션을 쓰는 경우
비용 중심 제품: 품질의 대부분이 필요하지만 매 요청에 GPT-4·Claude Opus를 감당할 수 없음.
지연 민감 UX: 응답이 1초 미만이어야 하는 챗 어시스턴트.
특수화: 좁은 과제(의도 분류·JSON 추출·코드 자동완성)에서 작은 파인튜닝 모델이 일반 플래그십을 이김.
온디바이스·에어갭: 70B 모델 실행이 불가능한 환경.
고볼륨 배치 처리: 일일 수백만 건 문서 분류 — 플래그십은 너무 비쌈.
쓰지 않는 경우
교사 데이터 부족: 최소 수천 개의 고품질 (입력, 교사 출력) 쌍이 필요.
오픈엔디드 창작 과제: 디스틸 모델은 종종 뉘앙스와 창의성을 잃음.
프런티어 추론: 수학·코딩·복잡 추론은 여전히 실제 프런티어 모델을 돌리는 게 유리.
빠르게 변하는 도메인: 디스틸 모델은 스냅샷. 도메인이 매주 바뀌면 디스틸이 뒤처짐.
트레이드오프
품질 천장: 학생은 교사를 능가할 수 없습니다. 디스틸레이션은 이전이지 창조가 아닙니다.
낯선 입력에 취약: 작은 모델은 일반화가 약함. 분포 밖 입력에서 빠르게 저하.
편향 상속: 교사의 편향(과 오류·할루시네이션)이 학생에 굽혀집니다.
API 비용 선납: 클로즈드 API에서 디스틸하려면 데이터 생성 단계에서 수천 회의 교사 추론 비용을 지불해야 합니다.
컴플라이언스 리스크: 일부 클로즈드 API ToS는 출력으로 경쟁 모델 훈련을 금지합니다. 약관을 읽으세요.
흔한 실수
평가 없이 디스틸: 보류 벤치마크 없이는 학생이 교사를 따라잡았는지 알 수 없음.
작은 학생, 복잡한 교사: 1B 학생이 175B 교사 행동을 다 담지 못합니다. 야망에 규모를 맞추세요.
데이터 품질 무시: 나쁜 교사 출력(할루시네이션·과제 이탈)은 학생의 나쁜 행동으로 굳어집니다.
특수화 부재: 일반 모델에서 일반 모델을 디스틸하면 종종 더 나쁜 일반 모델이 됩니다. 과제를 위해 디스틸하세요.
컴플라이언스 사각: 경쟁사 API 출력으로 조용히 훈련하는 것은 법적 시한폭탄입니다. ToS 확인.
Sources:
- Distilling the Knowledge in a Neural Network - Hinton et al.
- DistilBERT - Hugging Face
- DeepSeek-R1 Distillation - DeepSeek
관련 인블로그 게시물
inblog에서 활용하기
inblog의 AI 초안 생성은 작업 유형별로 디스틸된 소형 모델과 플래그십 모델을 라우팅합니다 — 메타 설명·태그 같은 단순 작업은 디스틸 소형 모델로 즉시 처리해 비용을 낮추고, 장문 기술 글의 사실 검증은 플래그십으로 라우팅. 사용자는 같은 비용 예산에서 더 많은 초안을 생성하면서도 품질이 중요한 지점에선 최고 모델을 받게 됩니다.