GEO

Distillation de modèles

La distillation de modèles est une technique d'entraînement où un petit modèle « élève » apprend à imiter un modèle « enseignant » bien plus grand, en s'entraînant sur les sorties de l'enseignant (ou sur ses distributions de probabilité internes) plutôt que sur des étiquettes brutes. Le résultat est un modèle qui conserve l'essentiel des capacités de l'enseignant pour une fraction de la taille, de la latence et du coût.

La distillation de modèles est une technique d'entraînement où un petit modèle « élève » apprend à imiter un modèle « enseignant » bien plus grand, en s'entraînant sur les sorties de l'enseignant (ou sur ses distributions de probabilité internes) plutôt que sur des étiquettes brutes. Le résultat est un modèle qui conserve l'essentiel des capacités de l'enseignant pour une fraction de la taille, de la latence et du coût.

Pourquoi c'est important

Le compromis entre modèle de pointe et modèle bon marché était autrefois brutal : payer 10 fois plus pour un modèle 5 % plus intelligent, ou s'en passer. La distillation comble cet écart. GPT-4o-mini, Claude Haiku, Gemini Flash, Llama 3 8B Instruct : chaque niveau « petit, rapide, bon marché » d'un grand laboratoire est, en pratique, un descendant distillé d'un modèle phare. La distillation est aussi le moyen privilégié de spécialiser : un modèle de 7 milliards distillé à partir de GPT-4 sur des transcriptions de support client peut surpasser l'original sur cette tâche unique tout en coûtant 100 fois moins cher à servir. Pour les développeurs, la distillation reformule la question « quel modèle utiliser » : on ne se demande plus « le plus grand que je puisse me permettre » mais « le plus petit modèle qui fait encore mon travail ».

Comment cela fonctionne

1. Choisissez un enseignant : généralement un grand modèle performant (GPT-4, Claude Opus, Llama 70B).

2. Générez les données d'entraînement : soit :

  • Distillation des sorties : exécutez l'enseignant sur un large ensemble d'entrées et enregistrez ses réponses. Entraînez l'élève sur ces paires (entrée, réponse de l'enseignant).
  • Distillation des logits : capturez la distribution de probabilité complète de l'enseignant sur le vocabulaire à chaque token (les « cibles douces ») et entraînez l'élève à la reproduire.

3. Entraînez l'élève : fine-tuning supervisé standard, mais en utilisant les sorties de l'enseignant comme étiquettes. La perte de l'élève correspond à sa divergence par rapport à la sortie de l'enseignant, et non à une réponse de référence étiquetée par un humain.

4. Spécialisation facultative sur une tâche : distillez sur des données d'un domaine spécifique (code, conversation, mathématiques, support client) pour obtenir un petit modèle spécialisé.

5. Évaluez : comparez l'élève à l'enseignant sur des benchmarks réservés. Visez 80 à 95 % de la qualité de l'enseignant pour moins de 10 % du coût.

Distillation des sorties vs distillation des logits

AspectDistillation des sorties (réponses)Distillation des logits (cibles douces)
DonnéesSeulement les sorties textuelles de l'enseignantProbabilités complètes des tokens de l'enseignant
Accès requisAPI uniquementBesoin des poids bruts du modèle
QualitéBonneMeilleure (plus de signal par token)
CoûtFaiblePlus élevé (coût de capture)
Cas d'usageDistiller à partir d'API ferméesDistiller à partir de modèles ouverts ou propres

La distillation des sorties est ce que font la plupart des équipes, car elles n'ont pas d'accès au niveau des poids de GPT-4 ou de Claude. La distillation des logits est la norme académique mais nécessite des modèles ouverts.

Modèles distillés célèbres

DistilBERT (Hugging Face, 2019) : l'original. 60 % de la taille de BERT, 95 % de ses performances, 60 % plus rapide.

Alpaca / Vicuna (Stanford / LMSYS, 2023) : Llama distillé à partir des sorties de GPT-3.5. A rendu bon marché les petits modèles capables de suivre des instructions.

GPT-4o-mini, Claude Haiku, Gemini Flash : selon les rapports, distillés à partir de leurs modèles phares respectifs, bien que les détails ne soient pas publics.

Llama 3.2 1B / 3B : petits modèles de Meta distillés à partir de variantes Llama plus grandes pour une utilisation sur l'appareil.

DeepSeek-R1-Distill (2025) : versions distillées ouvertes du raisonnement de DeepSeek-R1 dans des bases Llama et Qwen plus petites.

TinyLlama, Phi-3 : petits modèles entraînés avec des techniques de type distillation pour surpasser leur nombre de paramètres.

Quand utiliser la distillation

Produit guidé par le coût : vous avez besoin de l'essentiel de la qualité mais ne pouvez pas vous permettre GPT-4 ou Claude Opus à chaque requête.

UX sensible à la latence : assistants conversationnels où les réponses doivent être inférieures à la seconde.

Spécialisation : une tâche étroite (classification d'intention, extraction de JSON, complétion de code) où un petit modèle affiné surpasse le modèle phare généraliste.

Sur l'appareil ou isolé du réseau : lorsqu'exécuter un modèle de 70 milliards est impossible.

Traitement par lots à grand volume : classification de documents à des millions par jour, là où les modèles phares sont trop coûteux.

Quand ne pas l'utiliser

Vous n'avez pas assez de données d'enseignant : il faut au minimum des milliers de paires (entrée, sortie de l'enseignant) de haute qualité.

Tâches créatives ouvertes : les modèles distillés perdent souvent en nuance et en créativité.

Raisonnement de pointe : les mathématiques, le codage et le raisonnement complexe bénéficient encore de l'exécution du véritable modèle de pointe.

Domaines évoluant rapidement : un modèle distillé est un instantané. Si le domaine change chaque semaine, la distillation prend du retard.

Compromis

Plafond de qualité : l'élève ne peut pas dépasser l'enseignant. La distillation transfère, elle ne crée pas.

Fragilité sur les entrées inconnues : les petits modèles généralisent moins. Les entrées hors distribution se dégradent rapidement.

Héritage des biais : les biais de l'enseignant (ainsi que ses erreurs et ses hallucinations) sont intégrés dans l'élève.

Coût d'API initial : distiller à partir d'une API fermée nécessite de payer des milliers d'inférences de l'enseignant lors de la génération des données.

Risque de conformité : certaines conditions d'utilisation d'API fermées interdisent d'utiliser les sorties pour entraîner des modèles concurrents. Lisez les conditions.

Erreurs courantes

Distiller sans évaluation : sans benchmarks réservés, vous ne pouvez pas savoir si l'élève égale l'enseignant.

Élève minuscule, enseignant complexe : un élève de 1 milliard ne peut pas capturer tout le comportement d'un enseignant de 175 milliards. Adaptez l'échelle à l'ambition.

Négliger la qualité des données : de mauvaises sorties de l'enseignant (hallucinées, hors sujet) deviennent un mauvais comportement intégré chez l'élève.

Absence de spécialisation : distiller un modèle généraliste à partir d'un modèle généraliste produit souvent un modèle généraliste de moindre qualité. Distillez pour une tâche.

Angles morts de conformité : entraîner discrètement sur les sorties d'API de concurrents est une bombe à retardement juridique. Vérifiez les conditions d'utilisation.

Sources :