Was ist Model Routing? | GEO-Glossar

Model Routing ist die Praxis, jede Anfrage einer KI-Anwendung dynamisch an das LLM weiterzuleiten, das ihren Merkmalen am besten entspricht, also Schwierigkeit, Kostenvorgaben und Latenzanforderungen. Statt jede Anfrage durch ein einziges High-End-Modell zu schicken, sendet das Routing "einfache Anfragen an schnelle kleine Modelle und komplexes Schlussfolgern an große, teure" und optimiert so Kosten und Qualität zugleich.

Warum das wichtig ist

Bis 2026 umfasst das LLM-Ökosystem mehr als 20 kommerzielle und Open-Source-Modelle, jedes mit unterschiedlichen Stärken, Preisen und Latenzen. Alles auf GPT-5.5 oder Claude Opus 4.8 laufen zu lassen, lässt die Kosten explodieren; alles auf kleinen Modellen laufen zu lassen, lässt die Qualität bei schwierigen Aufgaben einbrechen. Routing-Spezialisten wie Martian und Not Diamond berichten, dass gut abgestimmtes Routing die Durchschnittskosten gegenüber einem reinen GPT-5.5-Einsatz um 50 bis 80 % senkt und dabei die Antwortqualität erhält.

Routing-Kriterien

Schwierigkeit der Anfrage: Klassifizierung und Zusammenfassung → Haiku oder GPT-5-nano. Programmierung oder komplexes Schlussfolgern → Opus oder GPT-5.5.

Latenzanforderungen: Chat-Oberflächen benötigen kleine Modelle mit geringer Latenz; Stapelverarbeitungen können langsamere große Modelle tolerieren.

Kostenbudget: Nutzer der kostenlosen Stufe auf günstigen Modellen, zahlende Nutzer auf Premium-Modellen.

Kontextlänge: Zusammenfassung langer Dokumente → Modelle mit 1 Mio. Token (Claude, Gemini).

Domänenspezialisierung: Code-Aufgaben → für Code feinabgestimmte Modelle. Koreanische Inhalte → Modelle mit starker Leistung im Koreanischen.

Sicherheitshaltung: Bewertung sensibler Inhalte → Modelle mit strengen Leitplanken. Kreatives Schreiben → Modelle mit lockereren Vorgaben.

Routing-Ansätze

Regelbasiert: Explizites If-else wie "Länge > 1.000 Zeichen → Opus, sonst Haiku". Einfach und vorhersehbar, aber unflexibel.

Klassifizierer-basiert: Ein kleines LLM analysiert jede Anfrage und klassifiziert Schwierigkeit oder Thema, dann erfolgt das Routing. Genau, doch der Klassifizierungsschritt erhöht Latenz und Kosten.

Embedding-Ähnlichkeit: Speichern Sie Vektoren vergangener erfolgreicher und gescheiterter Anfragen, finden Sie das nächstgelegene frühere Beispiel und leiten Sie entsprechend weiter.

Verstärkendes Lernen: Ein Router, der mit der Antwortqualität oder dem Nutzerfeedback als Belohnung trainiert wird. Am fortschrittlichsten, aber betrieblich komplex.

Kaskade: Versuchen Sie zuerst ein günstiges Modell; eskalieren Sie zu einem größeren, wenn die Zuversicht gering ist. Zahlt für "zwei Generierungen", um sowohl bei der Qualität als auch bei den Durchschnittskosten zu gewinnen.

Betriebliche Herausforderungen

Katalog der Modellfähigkeiten: Ohne echte Benchmarks für Ihre eigenen Aufgaben werden Routing-Regeln subjektiv.

Faire Evaluationspipeline: Sie benötigen eine Infrastruktur für A/B-Tests, die mehrere Modelle anhand derselben Anfragen vergleicht.

Fallback-Strategie: Gestalten Sie das System widerstandsfähig für den Fall, dass das gewählte Modell ausfällt oder langsam ist.

Protokollierung und Reproduzierbarkeit: Halten Sie fest, welche Anfrage an welches Modell weitergeleitet wurde, damit Sie Fehler beheben und verbessern können.

Transparenz gegenüber dem Nutzer: Zeigen Sie je nach Produkt "diese Antwort wurde mit Modell X erzeugt", um Vertrauen aufzubauen.

Auswirkungen auf GEO

KI-Suchmaschinen nutzen selbst Model Routing. Einfache Faktenfragen gehen an kleine Modelle; komplexe Rechercheaufgaben gehen an große. Um über beide Wege zitiert zu werden, müssen Inhalte mit unterschiedlichen Modelleingaben kompatibel sein. Sauberes Markdown, klare Überschriften, strukturierte Daten und aussagekräftige Antwortsätze machen Inhalte leicht erfassbar und zitierfähig, gleich welches Modell sie verarbeitet.

Quellen: