Instruction Tuning
L'instruction tuning est le processus de post-entraînement consistant à fine-tuner un LLM de base sur des milliers de paires (instruction, réponse souhaitée) afin qu'il apprenne à suivre des instructions en langage naturel plutôt qu'à simplement poursuivre du texte. C'est l'étape qui transforme un modèle de langage brut, doué pour prédire le mot suivant, en un assistant qui comprend « résume ceci », « traduis en coréen » ou « écris une requête SQL ».
L'instruction tuning est le processus de post-entraînement consistant à fine-tuner un LLM de base sur des milliers de paires (instruction, réponse souhaitée) afin qu'il apprenne à suivre des instructions en langage naturel plutôt qu'à simplement poursuivre du texte. C'est l'étape qui transforme un modèle de langage brut, doué pour prédire le mot suivant, en un assistant qui comprend « résume ceci », « traduis en coréen » ou « écris une requête SQL ».
Pourquoi c'est important
Un modèle de base entraîné uniquement sur la prédiction du token suivant est étonnamment difficile à utiliser. Demandez à un modèle GPT-3 de base brut « Quelle est la capitale de la France ? » et il pourrait répondre « Quelle est la capitale de l'Italie ? Quelle est la capitale de l'Espagne ? », poursuivant le motif de questions similaires plutôt que de répondre. L'instruction tuning a changé cela. Le FLAN de Google (2021), l'InstructGPT d'OpenAI (2022) et le Claude d'Anthropic ont utilisé l'instruction tuning pour créer des modèles qui répondent réellement. Tous les LLM modernes orientés conversation, GPT-4, Claude, Gemini, Llama Instruct, Mistral Instruct, ont été soumis à l'instruction tuning. Comprendre cette étape explique pourquoi deux modèles aux capacités de base similaires peuvent procurer une expérience radicalement différente.
Comment ça fonctionne
1. Collecter les données d'instruction : des humains rédigent (ou sélectionnent) des milliers de paires instruction-réponse couvrant des tâches variées, résumé, questions-réponses, codage, traduction, mathématiques, écriture créative, raisonnement.
2. Formater de manière cohérente : chaque exemple suit une structure comme :
### Instruction:
Summarize the following article in 3 bullets.
### Input:
[article text]
### Response:
- point 1
- point 2
- point 3
3. Fine-tuning supervisé (SFT) : entraîner le modèle de base avec la perte standard de prédiction du token suivant sur ces paires formatées. Le modèle apprend qu'après avoir vu « ### Instruction: ... ### Response: », il doit générer la réponse souhaitée.
4. Mélange multitâche optionnel : des jeux de données comme FLAN, T0 et Dolly combinent des centaines de types de tâches afin que le modèle généralise à des instructions inédites.
5. Évaluer sur des instructions retenues : mesurer si le modèle suit de nouvelles instructions qu'il n'a jamais vues pendant le tuning.
Instruction Tuning vs Fine-Tuning vs RLHF
| Aspect | Fine-Tuning | Instruction Tuning | RLHF |
|---|---|---|---|
| Données | Exemples spécifiques à une tâche | Paires (instruction, réponse) variées | Comparaisons de préférences humaines |
| Perte | Prédiction du token suivant | Prédiction du token suivant | Modèle de récompense + PPO |
| Objectif | Se spécialiser sur une tâche | Suivi général des instructions | S'aligner sur les préférences humaines |
| Exemple | Un modèle fine-tuné uniquement sur des contrats juridiques | FLAN, Alpaca, Dolly | ChatGPT, Claude |
| Difficulté | Facile | Moyenne | Difficile |
En pratique, les modèles de chat modernes passent par les trois étapes : pré-entraînement de base → instruction tuning (SFT) → RLHF (ou DPO/constitutional AI). L'instruction tuning est la couche intermédiaire, le moment où un modèle devient utilisable mais n'est pas encore aligné sur des préférences comme l'utilité, la sécurité et l'honnêteté.
Modèles célèbres soumis à l'instruction tuning
FLAN-T5 (Google, 2022) : l'un des premiers modèles open source soumis à l'instruction tuning. Il a montré qu'un modèle de 3 milliards de paramètres avec instruction tuning pouvait battre un modèle de 175 milliards sans.
Alpaca (Stanford, 2023) : Llama 7B fine-tuné sur 52 000 exemples d'instructions générés par GPT-3.5. Il a démontré que l'instruction tuning est peu coûteux et efficace, même pour les petits modèles.
Dolly (Databricks, 2023) : fine-tuné sur 15 000 instructions rédigées par des humains. Il a prouvé que des données de haute qualité l'emportent sur la quantité.
Llama Instruct / Mistral Instruct : versions à poids ouverts soumises à l'instruction tuning, publiées en même temps que leurs modèles de base.
Open-Instruct et Tulu (AI2) : modèles soumis à l'instruction tuning, axés sur la recherche et mettant l'accent sur la transparence.
Compromis
Qualité des données > quantité : 15 000 exemples soigneusement rédigés peuvent battre 500 000 exemples générés automatiquement. Alpaca vs Dolly l'a montré.
Couverture étroite vs large : couvrir davantage de types de tâches améliore la généralisation mais peut nuire à la performance sur une tâche donnée.
Sensibilité au format : les modèles soumis à l'instruction tuning attendent un format de prompt spécifique. Utiliser le mauvais dégrade sensiblement la performance.
Risque d'hallucination : si les données d'instruction contiennent des réponses non fondées, le modèle apprend à fabriquer avec assurance.
Coût : de quelques centaines à quelques milliers de dollars de temps GPU pour les petits modèles ; bien davantage à l'échelle des modèles de pointe.
Erreurs courantes
Le confondre avec le RLHF : ce sont des étapes différentes. Un modèle peut être soumis à l'instruction tuning sans RLHF (et beaucoup de modèles ouverts le sont) mais il lui manquera l'alignement sur les préférences.
Utiliser un modèle de base brut comme modèle de chat : les modèles de base ne suivent pas les instructions de manière fiable. Utilisez toujours la variante soumise à l'instruction tuning ou de chat pour les tâches d'assistant.
Mélanger les formats de prompt entre modèles : chaque modèle soumis à l'instruction tuning a son propre format attendu. Celui de Llama n'est pas celui de Mistral, qui n'est pas celui d'OpenAI.
S'entraîner sur son propre domaine et perdre la capacité générale : un fine-tuning étroit par-dessus un modèle soumis à l'instruction tuning peut effacer le suivi des instructions. Utilisez LoRA et évaluez largement.
Oublier l'évaluation : le jugement humain ou le LLM-as-a-judge sur des prompts retenus est le seul moyen de vérifier que l'instruction tuning a réellement fonctionné.
Sources: