Was ist Few-Shot Learning? | GEO-Glossar

Few-Shot Learning ist die Prompt-Engineering-Technik, 2 bis 5 Beispiele nach dem Schema "Eingabe → gewünschte Ausgabe" in den Prompt aufzunehmen, damit das LLM das Muster nachahmt. Ohne zusätzliches Training ist sie eine der praktischsten Möglichkeiten, das Modellverhalten allein durch Prompt-Gestaltung auszurichten.

Warum es wichtig ist

Systematisch eingeführt in der GPT-3-Arbeit "Language Models are Few-Shot Learners" von 2020, zeigte die Technik, dass große LLMs Aufgaben, für die sie nie ausdrücklich trainiert worden waren, ausführen konnten, nachdem sie nur wenige Beispiele gesehen hatten. Die Genauigkeit bei derselben Aufgabe liegt mit Few-Shot im Schnitt 20 bis 40 % höher als mit Zero-Shot. Es ist die günstigste sinnvolle Qualitätsverbesserung, die ohne Fine-Tuning verfügbar ist.

Zero-Shot vs. Few-Shot vs. Fine-Tuning

Zero-Shot: Nur Anweisungen, keine Beispiele.

"Klassifiziere die Stimmung dieses Satzes als positiv/negativ/neutral: [Satz]"

Few-Shot: 2 bis 5 Beispielpaare enthalten.

"Klassifiziere als positiv, negativ oder neutral. Beispiel 1: 'Es war wirklich großartig' → positiv Beispiel 2: 'Nichts für mich' → negativ Beispiel 3: 'Es war in Ordnung' → neutral Zu klassifizierender Satz: [neuer Satz]"

Fine-Tuning: Aktualisiert die Modellgewichte mit Hunderten bis Tausenden von Beispielen.

Aspekt	Zero-Shot	Few-Shot	Fine-Tuning
Einrichtungskosten	Keine	Minuten	Stunden bis Tage
Genauigkeit	Niedrig	Mittel	Hoch
Token-Verbrauch	Niedrig	Mittel (Beispiele blähen den Prompt auf)	Niedrig (nach dem Training)
Flexibilität	Sofort änderbar	Sofort änderbar	Erfordert erneutes Training

Few-Shot liegt zwischen beiden und ist der ideale Punkt für "die meisten Produktionsaufgaben, die einen schnellen Qualitätsschub brauchen".

Wirksame Few-Shot-Beispiele gestalten

Vielfältige Fälle abdecken: Beziehen Sie positive, negative und Grenzfälle ein, damit das Modell die Verteilung erschließt.

Konsistentes Format: Jedes Beispiel muss demselben Format "Eingabe → Ausgabe" folgen. Uneinheitliche Formate schaden der Genauigkeit.

Harte Grenzfälle: Einfache Beispiele lassen das Modell an den Rändern unsicher. Beziehen Sie subtile Fälle wie "wirkt positiv, ist aber tatsächlich neutral" ein.

Reihenfolge der Beispiele: Forschung zeigt, dass die Reihenfolge die Ergebnisse beeinflusst. Eine verbreitete Faustregel lautet: die klarsten Beispiele zuerst, dann die schwierigeren.

Anzahl der Beispiele: 3 bis 5 sind für die meisten Aufgaben optimal. Mehr fügt meist Token-Kosten bei abnehmendem Ertrag hinzu.

Gute Anwendungsfälle

Klassifizierung: Automatisches Kategorisieren von Kundenanfragen.

Formatkonvertierung: JSON zu Markdown, unstrukturierter Text zu strukturierten Daten.

Stilnachahmung: Eine Markenstimme oder den Schreibstil eines Autors aus einer Handvoll Beispiele lernen.

Domänenspezifische Extraktion: Bestimmte Felder aus Verträgen oder Arbeiten herausziehen.

Übersetzungsfeinabstimmung: Übersetzungen so anpassen, dass Ihr Glossar berücksichtigt wird.

Grenzen

Kontextverschwendung: Lange Beispiele verbrauchen Tokens und verkleinern das effektive Kontextfenster.

Weniger konsistent als Fine-Tuning: Bei hochvolumigen, repetitiven Aufgaben ist Fine-Tuning weiterhin im Vorteil.

Moderne Modelle sind besser im Zero-Shot: Claude Opus 4.8, GPT-5.5 und ähnliche Spitzenmodelle schließen einen Großteil der Zero-Shot-Lücke, sodass der Few-Shot-Vorteil kleiner ist als früher. Oft genügt Zero-Shot.

Die Beispielqualität bestimmt die Ausgabe: Schlechte Beispiele → schlechte Ausgaben. Die Beispielgestaltung ist der zentrale Qualitätshebel.

Sources: