GEO

Reranker

Ein Reranker ist ein Modell, das die Top-k-Ergebnisse einer Vektorsuche in einer RAG-Pipeline verfeinert und sie so neu ordnet, dass die tatsächlich relevantesten Chunks ganz oben landen. Der erste Abrufdurchlauf bedeutet "schnell viele Kandidaten finden"; das Reranking bedeutet "diejenigen auswählen, die wirklich zitierwürdig sind".

Ein Reranker ist ein Modell, das die Top-k-Ergebnisse einer Vektorsuche in einer RAG-Pipeline verfeinert und sie so neu ordnet, dass die tatsächlich relevantesten Chunks ganz oben landen. Der erste Abrufdurchlauf bedeutet "schnell viele Kandidaten finden"; das Reranking bedeutet "diejenigen auswählen, die wirklich zitierwürdig sind".

Warum es wichtig ist

Ein rein vektorbasierter Abruf mischt Chunks hinein, die semantisch ähnlich, aber keine echten Antworten sind. Forschung von Cohere und Anthropic zeigt, dass das Hinzufügen eines Rerankers zu einer RAG-Pipeline die Abrufgenauigkeit im Schnitt um 15 bis 40 % steigert und Halluzinationen in der endgültigen LLM-Antwort deutlich reduziert. 2026 nutzen alle großen AI-Suche-Engines (Perplexity, ChatGPT Search, Gemini AI Mode) intern Reranker.

Wie es funktioniert

RAG-Pipelines führen den Abruf typischerweise in zwei Stufen aus:

  1. Abruf: Die Vektordatenbank liefert die Top 50 bis 100 Chunks nach Embedding-Ähnlichkeit, schnell, aber grob.
  2. Reranking: Ein Reranker-Modell bewertet Anfrage und Kandidaten gemeinsam und engt auf die Top 3 bis 10 ein. Langsamer, aber weit genauer.
  3. Generierung: Die besten Chunks werden in den Kontext des LLM eingespeist, und die Generierung erfolgt.

Bi-Encoder vs Cross-Encoder

Bi-Encoder: Was Embedding-Modelle verwenden. Anfrage und Dokument werden getrennt in Vektoren kodiert und verglichen. Schnell, verfehlt aber feingranulare Anfrage-Dokument-Beziehungen.

Cross-Encoder: Was Reranker verwenden. Anfrage und Dokument werden gemeinsam eingegeben und in einem einzigen Vorwärtsdurchlauf bewertet. Langsamer, deutlich genauer.

Der Kern des zweistufigen Abrufs besteht darin, beide Stärken zu kombinieren: schneller Bi-Encoder zum Filtern, präziser Cross-Encoder zum Reranking.

Führende Reranker

  • Cohere Rerank: Verwaltete API, mehrsprachig, die gängigste Wahl in produktivem RAG
  • Voyage rerank: Hochleistungs-Reranker, von Anthropic empfohlen
  • BGE Reranker: Open Source, mehrsprachig (einschließlich Koreanisch)
  • Jina Reranker: Open Source, stark bei langen Dokumenten
  • LLM-as-Reranker: GPT-4o oder Claude direkt zum Reranking nutzen. Höchste Genauigkeit, höchste Kosten

Bedeutung für GEO

Reranker betrachten mehr als nur die semantische Ähnlichkeit, was beeinflusst, wie Sie schreiben.

Direkte Antwortsätze: Reranker erkennen die "Antworthaftigkeit" in der Beziehung zwischen Anfrage und Chunk. Ein Abschnitt zu "Was ist X?" sollte mit "X ist..." beginnen.

Konkretheit und Nützlichkeit: Chunks mit konkreten Zahlen und Beispielen werden höher gerankt als abstrakte Erläuterungen.

Nutzeranfrage-Muster nachahmen: Abschnittsüberschriften, die wie Fragen aussehen, die echte Nutzer der AI-Suche stellen, sind für Reranker leichter zu treffen.

Rauschen vermeiden: Weitschweifige oder repetitive Absätze schneiden schlechter ab. Kurze, in sich geschlossene Abschnitte mit vorangestellter Kernaussage gewinnen.

Sources: