Model Distillation
Model Distillation ist eine Trainingstechnik, bei der ein kleines "Schüler"-Modell lernt, ein weitaus größeres "Lehrer"-Modell nachzuahmen, indem es auf den Ausgaben des Lehrers (oder dessen internen Wahrscheinlichkeitsverteilungen) statt auf rohen Labels trainiert wird. Das Ergebnis ist ein Modell, das den Großteil der Fähigkeiten des Lehrers bei einem Bruchteil von Größe, Latenz und Kosten besitzt.
Model Distillation ist eine Trainingstechnik, bei der ein kleines "Schüler"-Modell lernt, ein weitaus größeres "Lehrer"-Modell nachzuahmen, indem es auf den Ausgaben des Lehrers (oder dessen internen Wahrscheinlichkeitsverteilungen) statt auf rohen Labels trainiert wird. Das Ergebnis ist ein Modell, das den Großteil der Fähigkeiten des Lehrers bei einem Bruchteil von Größe, Latenz und Kosten besitzt.
Warum das wichtig ist
Der Kompromiss zwischen Spitzenmodell und günstigem Modell war früher brutal: das Zehnfache für ein um 5 % klügeres Modell zahlen oder sich begnügen. Die Distillation schließt diese Lücke. GPT-4o-mini, Claude Haiku, Gemini Flash, Llama 3 8B Instruct: Jede "kleine, schnelle, günstige" Stufe eines großen Labors ist in der Praxis ein distillierter Abkömmling eines Flaggschiff-Modells. Die Distillation ist außerdem der bevorzugte Weg zur Spezialisierung: Ein 7B-Modell, das aus GPT-4 anhand von Transkripten des Kundensupports distilliert wurde, kann das Original bei dieser einen Aufgabe schlagen und kostet dabei nur ein Hundertstel im Betrieb. Für Entwickler verschiebt die Distillation die Frage "welches Modell nutze ich" von "das größte, das ich mir leisten kann" zu "was ist das kleinste Modell, das meine Aufgabe noch erledigt".
Wie es funktioniert
1. Einen Lehrer auswählen: Üblicherweise ein großes, leistungsfähiges Modell (GPT-4, Claude Opus, Llama 70B).
2. Trainingsdaten erzeugen: Entweder:
- Output-Distillation: Lassen Sie den Lehrer über eine große Menge an Eingaben laufen und speichern Sie seine Antworten. Trainieren Sie den Schüler auf diesen (Eingabe, Lehrerantwort)-Paaren.
- Logit-Distillation: Erfassen Sie bei jedem Token die vollständige Wahrscheinlichkeitsverteilung des Lehrers über das Vokabular (die "weichen Ziele") und trainieren Sie den Schüler darauf, sie nachzubilden.
3. Den Schüler trainieren: Standardmäßiges überwachtes Fine-Tuning, jedoch mit Lehrerausgaben als Labels. Der Verlust des Schülers ist seine Abweichung von der Ausgabe des Lehrers, nicht von einer menschlich gelabelten Musterantwort.
4. Optionaler Aufgabenfokus: Distillieren Sie auf Daten aus einer bestimmten Domäne (Code, Chat, Mathematik, Kundensupport), um ein spezialisiertes kleines Modell zu erhalten.
5. Evaluieren: Vergleichen Sie Schüler und Lehrer anhand zurückgehaltener Benchmarks. Streben Sie 80 bis 95 % der Lehrerqualität bei weniger als 10 % der Kosten an.
Output- vs. Logit-Distillation
| Aspekt | Output-Distillation (Antwort) | Logit-Distillation (weiche Ziele) |
|---|---|---|
| Daten | Nur die Textausgaben des Lehrers | Vollständige Token-Wahrscheinlichkeiten des Lehrers |
| Erforderlicher Zugriff | Nur API | Rohe Modellgewichte erforderlich |
| Qualität | Gut | Besser (mehr Signal pro Token) |
| Kosten | Günstig | Teurer (Erfassungskosten) |
| Anwendungsfall | Distillation aus geschlossenen APIs | Distillation aus offenen oder eigenen Modellen |
Die Output-Distillation wird von den meisten Teams genutzt, weil sie keinen Zugriff auf Gewichtsebene zu GPT-4 oder Claude haben. Die Logit-Distillation ist der akademische Standard, erfordert aber offene Modelle.
Berühmte distillierte Modelle
DistilBERT (Hugging Face, 2019): Das Original. 60 % der Größe von BERT, 95 % seiner Leistung, 60 % schneller.
Alpaca / Vicuna (Stanford / LMSYS, 2023): Llama, distilliert aus GPT-3.5-Ausgaben. Machte kleine, anweisungsbefolgende Modelle günstig.
GPT-4o-mini, Claude Haiku, Gemini Flash: Berichten zufolge aus ihren jeweiligen Flaggschiffen distilliert, auch wenn Details nicht öffentlich sind.
Llama 3.2 1B / 3B: Metas kleine Modelle, aus größeren Llama-Varianten für die Nutzung auf dem Gerät distilliert.
DeepSeek-R1-Distill (2025): Offene distillierte Versionen des Schlussfolgerns von DeepSeek-R1 in kleinere Llama- und Qwen-Basen.
TinyLlama, Phi-3: Kleine Modelle, die mit distillationsartigen Techniken trainiert wurden, um über ihrer Parametergewichtsklasse zu boxen.
Wann Distillation einzusetzen ist
Kostengetriebenes Produkt: Sie benötigen den Großteil der Qualität, können sich aber nicht GPT-4 oder Claude Opus bei jeder Anfrage leisten.
Latenzempfindliche UX: Chat-Assistenten, bei denen Antworten im Subsekundenbereich liegen müssen.
Spezialisierung: Eine eng umrissene Aufgabe (Intent-Klassifizierung, JSON-Extraktion, Code-Vervollständigung), bei der ein kleines feinabgestimmtes Modell das allgemeine Flaggschiff schlägt.
Auf dem Gerät oder ohne Netzanbindung: Wo der Betrieb eines 70B-Modells unmöglich ist.
Stapelverarbeitung mit hohem Volumen: Dokumentklassifizierung in Millionenhöhe pro Tag, bei der Flaggschiff-Modelle zu teuer sind.
Wann es nicht einzusetzen ist
Sie haben nicht genügend Lehrerdaten: Es werden mindestens Tausende hochwertiger (Eingabe, Lehrerausgabe)-Paare benötigt.
Offene kreative Aufgaben: Distillierte Modelle verlieren oft Feinheit und Kreativität.
Schlussfolgern auf Spitzenniveau: Mathematik, Programmierung und komplexes Schlussfolgern profitieren weiterhin davon, das tatsächliche Spitzenmodell auszuführen.
Sich schnell verändernde Domänen: Ein distilliertes Modell ist eine Momentaufnahme. Wenn sich die Domäne wöchentlich ändert, hinkt die Distillation hinterher.
Kompromisse
Qualitätsobergrenze: Der Schüler kann den Lehrer nicht übertreffen. Distillation überträgt, sie erschafft nicht.
Anfälligkeit bei ungewohnten Eingaben: Kleine Modelle generalisieren schlechter. Eingaben außerhalb der Verteilung verschlechtern sich rasch.
Vererbung von Verzerrungen: Die Verzerrungen des Lehrers (sowie Fehler und Halluzinationen) sind im Schüler fest verankert.
API-Kosten im Voraus: Die Distillation aus einer geschlossenen API erfordert, dass Sie während der Datengenerierung für Tausende Lehrer-Inferenzen zahlen.
Compliance-Risiko: Manche AGB geschlossener APIs verbieten die Nutzung der Ausgaben zum Training konkurrierender Modelle. Lesen Sie die Bedingungen.
Häufige Fehler
Distillieren ohne Evaluation: Ohne zurückgehaltene Benchmarks lässt sich nicht feststellen, ob der Schüler den Lehrer erreicht.
Winziger Schüler, komplexer Lehrer: Ein 1B-Schüler kann nicht das gesamte Verhalten eines 175B-Lehrers erfassen. Stimmen Sie den Maßstab auf den Anspruch ab.
Datenqualität überspringen: Schlechte Lehrerausgaben (halluziniert, am Thema vorbei) werden zu fest verankertem schlechtem Schülerverhalten.
Keine Spezialisierung: Ein allgemeines Modell aus einem allgemeinen Modell zu distillieren, ergibt oft ein schlechteres allgemeines Modell. Distillieren Sie für eine Aufgabe.
Blinde Flecken bei der Compliance: Heimlich auf den API-Ausgaben von Wettbewerbern zu trainieren, ist eine rechtliche Zeitbombe. Prüfen Sie die AGB.
Quellen: