GEO

Instruction Tuning

Instruction Tuning ist der Nachtrainingsprozess, bei dem ein Basis-LLM durch Fine-Tuning auf Tausenden von (Anweisung, gewünschte Antwort)-Paaren so trainiert wird, dass es lernt, natürlichsprachlichen Anweisungen zu folgen, statt einfach Text fortzusetzen. Es ist der Schritt, der ein rohes Sprachmodell, das gut darin ist, das nächste Wort vorherzusagen, in einen Assistenten verwandelt, der "fasse dies zusammen", "übersetze ins Koreanische" oder "schreibe eine SQL-Abfrage" versteht.

Instruction Tuning ist der Nachtrainingsprozess, bei dem ein Basis-LLM durch Fine-Tuning auf Tausenden von (Anweisung, gewünschte Antwort)-Paaren so trainiert wird, dass es lernt, natürlichsprachlichen Anweisungen zu folgen, statt einfach Text fortzusetzen. Es ist der Schritt, der ein rohes Sprachmodell, das gut darin ist, das nächste Wort vorherzusagen, in einen Assistenten verwandelt, der "fasse dies zusammen", "übersetze ins Koreanische" oder "schreibe eine SQL-Abfrage" versteht.

Warum es wichtig ist

Ein Basismodell, das nur auf der Vorhersage des nächsten Tokens trainiert wurde, ist überraschend schwer zu verwenden. Fragen Sie ein rohes GPT-3-Basismodell "Was ist die Hauptstadt von Frankreich?", könnte es mit "Was ist die Hauptstadt von Italien? Was ist die Hauptstadt von Spanien?" antworten, indem es das Muster ähnlicher Fragen fortsetzt, statt zu antworten. Instruction Tuning hat dies geändert. Googles FLAN (2021), OpenAIs InstructGPT (2022) und Anthropics Claude nutzten Instruction Tuning, um Modelle zu schaffen, die tatsächlich antworten. Jedes moderne chatorientierte LLM, GPT-4, Claude, Gemini, Llama Instruct, Mistral Instruct, wurde mit Instruction Tuning versehen. Das Verständnis dieses Schritts erklärt, warum sich zwei Modelle mit ähnlichen Basisfähigkeiten in der Nutzung dramatisch unterschiedlich anfühlen können.

So funktioniert es

1. Anweisungsdaten sammeln: Menschen schreiben (oder kuratieren) Tausende von Anweisungs-Antwort-Paaren über vielfältige Aufgaben hinweg, Zusammenfassung, Frage-Antwort, Programmierung, Übersetzung, Mathematik, kreatives Schreiben, Schlussfolgern.

2. Einheitlich formatieren: Jedes Beispiel folgt einer Struktur wie:

### Instruction:
Summarize the following article in 3 bullets.
### Input:
[article text]
### Response:
- point 1
- point 2
- point 3

3. Überwachtes Fine-Tuning (SFT): Trainieren Sie das Basismodell mit dem üblichen Verlust der Vorhersage des nächsten Tokens über diese formatierten Paare. Das Modell lernt, dass es nach "### Instruction: ... ### Response:" die gewünschte Antwort erzeugen soll.

4. Optionales Multi-Task-Mischen: Datensätze wie FLAN, T0 und Dolly kombinieren Hunderte von Aufgabentypen, sodass das Modell auf ungesehene Anweisungen generalisiert.

5. An zurückgehaltenen Anweisungen evaluieren: Messen Sie, ob das Modell neuen Anweisungen folgt, die es während der Feinabstimmung nie gesehen hat.

Instruction Tuning vs. Fine-Tuning vs. RLHF

AspektFine-TuningInstruction TuningRLHF
DatenAufgabenspezifische BeispieleVielfältige (Anweisung, Antwort)-PaareMenschliche Präferenzvergleiche
VerlustVorhersage des nächsten TokensVorhersage des nächsten TokensBelohnungsmodell + PPO
ZielAuf eine Aufgabe spezialisierenAllgemeines Befolgen von AnweisungenAusrichtung an menschlichen Präferenzen
BeispielEin Modell, das nur auf juristische Verträge feinabgestimmt istFLAN, Alpaca, DollyChatGPT, Claude
SchwierigkeitEinfachMittelSchwer

In der Praxis durchlaufen moderne Chat-Modelle alle drei: Basis-Vortraining → Instruction Tuning (SFT) → RLHF (oder DPO/Constitutional AI). Instruction Tuning ist die mittlere Schicht, der Punkt, an dem ein Modell nutzbar wird, aber noch nicht auf Präferenzen wie Hilfsbereitschaft, Sicherheit und Ehrlichkeit ausgerichtet ist.

Bekannte Instruction-Tuned-Modelle

FLAN-T5 (Google, 2022): Eines der ersten quelloffenen Instruction-Tuned-Modelle. Es zeigte, dass ein 3B-Modell mit Instruction Tuning ein 175B-Modell ohne dieses schlagen konnte.

Alpaca (Stanford, 2023): Feinabstimmung von Llama 7B auf 52.000 Anweisungsbeispielen, die von GPT-3.5 generiert wurden. Belegte, dass Instruction Tuning selbst für kleine Modelle günstig und wirksam ist.

Dolly (Databricks, 2023): Feinabstimmung auf 15.000 von Menschen geschriebenen Anweisungen. Bewies, dass hochwertige Daten die Menge übertreffen.

Llama Instruct / Mistral Instruct: Instruction-Tuned-Versionen mit offenen Gewichten, die zusammen mit ihren Basismodellen veröffentlicht wurden.

Open-Instruct und Tulu (AI2): Forschungsorientierte Instruction-Tuned-Modelle mit Schwerpunkt auf Transparenz.

Abwägungen

Datenqualität > Menge: 15.000 sorgfältig geschriebene Beispiele können 500.000 automatisch generierte schlagen. Alpaca im Vergleich zu Dolly zeigte dies.

Enge vs. breite Abdeckung: Die Abdeckung weiterer Aufgabentypen verbessert die Generalisierung, kann aber die Leistung bei einer einzelnen Aufgabe beeinträchtigen.

Formatempfindlichkeit: Instruction-Tuned-Modelle erwarten ein bestimmtes Prompt-Format. Die Verwendung des falschen Formats verschlechtert die Leistung spürbar.

Risiko von Halluzinationen: Wenn die Anweisungsdaten ungeerdete Antworten enthalten, lernt das Modell, selbstbewusst zu fabrizieren.

Kosten: Einige Hundert bis einige Tausend Dollar an GPU-Zeit für kleine Modelle; deutlich mehr im Spitzenmaßstab.

Häufige Fehler

Es mit RLHF verwechseln: Es sind unterschiedliche Schritte. Ein Modell kann ohne RLHF mit Instruction Tuning versehen werden (und viele offene Modelle sind das), wird aber die Präferenzausrichtung verfehlen.

Ein rohes Basismodell als Chat-Modell verwenden: Basismodelle folgen Anweisungen nicht zuverlässig. Verwenden Sie für Assistenzaufgaben immer die Instruction-Tuned- oder Chat-Variante.

Prompt-Formate zwischen Modellen vermischen: Jedes Instruction-Tuned-Modell hat sein eigenes erwartetes Format. Das von Llama ist nicht das von Mistral und nicht das von OpenAI.

Auf der eigenen Domäne trainieren und die allgemeine Fähigkeit verlieren: Enges Fine-Tuning oberhalb eines Instruction-Tuned-Modells kann das Befolgen von Anweisungen auslöschen. Verwenden Sie LoRA und evaluieren Sie breit.

Die Evaluierung vergessen: Menschliches Urteil oder LLM-as-a-Judge an zurückgehaltenen Prompts ist die einzige Möglichkeit, zu verifizieren, dass Instruction Tuning tatsächlich funktioniert hat.

Quellen: