Was ist Fine-Tuning? | GEO-Glossar

Fine-Tuning ist die Technik, ein vortrainiertes LLM mit domänen- oder aufgabenspezifischen Daten weiter zu trainieren, um seinen Stil, sein Wissen und sein Verhalten zu formen. So verwandeln Sie ein Allzweckmodell in ein markenspezifisches oder branchenspezifisches "Custom GPT".

Warum es wichtig ist

Prompt Engineering hat Grenzen. Es wiederholt bei jeder Anfrage dieselben Anweisungen, verbraucht das Kontextfenster und kann einen konsistenten Stil nicht vollständig festschreiben. Fine-Tuning aktualisiert die Gewichte des Modells, sodass das erlernte Verhalten ohne ausdrückliche Anweisungen eingebacken ist. Forschung von OpenAI zeigt, dass fein abgestimmtes GPT-4o bei spezialisierten Aufgaben im Schnitt 20 bis 30 % höhere Genauigkeit erzielt als Prompting allein.

Typen des Fine-Tuning

Full Fine-Tuning: Aktualisiert jeden Parameter. Höchste Leistung, aber am teuersten bei Rechen- und Speicheraufwand.

LoRA (Low-Rank Adaptation): Hält die ursprünglichen Gewichte eingefroren und trainiert kleine Adapter-Schichten. Etwa 1/100 der Trainingskosten, und Sie können LoRA-Adapter nach Bedarf austauschen. Der 2026 am weitesten verbreitete Ansatz.

PEFT (Parameter-Efficient Fine-Tuning): Oberbegriff für LoRA, Adapter, Prefix-Tuning und ähnliche Methoden, bei denen nur eine kleine Teilmenge der Parameter trainiert wird.

RLHF / DPO: Stimmt die Antwortqualität mithilfe menschlichen Feedbacks oder Präferenzvergleichen ab. Die zentrale Alignment-Technik hinter ChatGPT und Claude.

SFT (Supervised Fine-Tuning): Die grundlegendste Form, das Training auf gelabelten Eingabe-Ausgabe-Paaren. Wirksam, um bestimmte Formate oder Tonfälle zu vermitteln.

Fine-Tuning vs. Prompting vs. RAG

Diese Ansätze ergänzen sich, sie konkurrieren nicht.

Ziel	Bester Ansatz
Konsistenter Stil/Tonfall	Fine-Tuning
Format- oder Sprachtreue	Fine-Tuning oder Prompting
Aktuelle Echtzeitinformationen	RAG
Interne Unternehmensdokumente	RAG
Tiefes Domänenwissen (medizinisch, juristisch)	Fine-Tuning + RAG
Einmalige oder wechselnde Aufgaben	Prompting

Faustregel: Wenn Prompting es löst, ist Fine-Tuning übertrieben. Greifen Sie nur dann zum Fine-Tuning, wenn Sie ständig dieselben Anweisungen wiederholen oder keinen konsistenten Tonfall hinbekommen.

Praktische Tipps

Datenqualität ist alles: 1.000 hochwertige Beispiele schlagen 10.000 verrauschte. Konsistenz und Vielfalt der Labels entscheiden über die endgültige Leistung.

Mindestdatenmenge: OpenAI empfiehlt mindestens 50 bis 100 Beispiele; 500 bis 1.000 sind in der Praxis typisch. LoRA kommt mit weniger aus.

Einen Validierungssatz zurückhalten: Reservieren Sie 10 bis 20 % der Daten, um Overfitting zu erkennen.

Mit dem kleinsten leistungsfähigen Basismodell beginnen: Ein gut abgestimmtes kleines Modell schlägt ein geprompttes großes Modell oft sowohl in Geschwindigkeit als auch in den Kosten.

Bewertungskennzahlen zuerst festlegen: Entscheiden Sie vor dem Training, wie Sie Genauigkeit, Stilkonsistenz und Faktentreue messen, damit Sie die Verbesserung verfolgen können.

Sources: