Was ist Query Rewriting? | GEO-Glossar

Query Rewriting ist die Praxis, eine rohe Nutzerfrage in eine für den Abruf besser geeignete Form umzuwandeln, bevor sie an eine Suchmaschine, ein RAG-System oder eine AI-Suche gestellt wird. Es umfasst eine Reihe von Transformationen: das Auflösen vager Fragen, das Klären von Pronomen, die Erweiterung um Synonyme oder die Zerlegung in Teilfragen.

Warum es wichtig ist

Die Fragen, die Nutzer tatsächlich eintippen, sind nicht für den Abruf optimiert. Sie sind kontextabhängig ("wie mache ich das dings"), lassen Wörter weg ("inblog wie viel") oder bündeln mehrere Absichten ("GEO vs SEO Unterschiede und was zu tun ist"). Stellt man diese direkt an eine Vektordatenbank, holt man Rauschen herein. Query Rewriting verbessert die Abrufgenauigkeit und die Zitierqualität deutlich, und bis 2026 ist es ein standardmäßiger Vorverarbeitungsschritt in produktiven RAG-Pipelines.

Gängige Techniken

Query-Expansion: Synonyme und verwandte Begriffe hinzufügen. "Blog-Plattform Empfehlung" wird zu "Blog-Plattform Empfehlung CMS WordPress Medium inblog." Erhöht den Recall in der semantischen Suche.

Query-Zerlegung: Eine Frage mit mehreren Absichten in Teilfragen aufteilen. "Was ist der Unterschied zwischen GEO und SEO und wie reagiere ich darauf?" wird zu vier Anfragen: "Was ist GEO?", "Was ist SEO?", "GEO vs SEO Unterschiede?", "GEO-Reaktionsstrategie?" Eng verwandt mit Query Fan-Out.

Koreferenzauflösung: Vorhergehenden Gesprächsverlauf nutzen, um Pronomen durch explizite Substantive zu ersetzen. "Wie viel kostet das?" wird zu "Wie viel kostet der inblog Business-Tarif?"

HyDE (Hypothetical Document Embeddings): Das Modell erzeugt zunächst eine hypothetische Antwort auf die Frage und bettet dann diese Antwort für den Abruf ein. Antworten ähneln strukturell echten Dokumenten stärker als Fragen, was die Abrufpräzision steigert.

Query-Neuformulierung: Vage Fragen in klarere umschreiben. "Es funktioniert nicht" wird zu "Warum erscheint mein Blogbeitrag nach der Veröffentlichung nicht in der Suche?"

Sprachübergreifende Übersetzung: Selbst wenn der Nutzer auf Koreanisch fragt, führt das System auch die übersetzte englische Version aus, um englische Dokumente zutage zu fördern.

Die Pipeline

Eingabe der Nutzeranfrage: Die rohe natürlichsprachliche Frage entgegennehmen
LLM-Umformulierung: Ein dedizierter Prompt analysiert die Anfrage und erzeugt umformulierte Form(en)
Embedding: Jede umformulierte Anfrage wird eingebettet
Vektorsuche: Relevante Chunks aus der Vektordatenbank abrufen
Reranking: Ergebnisse mit einem Reranker verfeinern
Generierung: Die besten Chunks in das LLM einspeisen, um die endgültige Antwort zu erzeugen

Bedeutung für GEO

Die Anfrage, die ein Nutzer eintippt, und die umformulierte Anfrage, die tatsächlich an die Vektordatenbank geht, sind unterschiedlich. Eine GEO-Strategie muss Inhalte gestalten, die auch zu den umformulierten Anfragen passen.

Fragenförmige Überschriften: Überschriften wie "Was ist X?", "Wie macht man Y?", "Unterschied zwischen X und Y" passen direkt zu zerlegten Teilfragen.

Synonyme und zweisprachige Begriffe: Sowohl Eigennamen als auch generische Begriffe anzubieten, Englisch neben lokalen Bezeichnungen sowie sowohl ausgeschriebene Formen als auch Abkürzungen hilft, Query-Expansions abzufangen.

Explizite Antwortsätze: Jeden Abschnitt mit einem aussagenden "X ist..." zu beginnen, passt zu den hypothetischen Antworten, die HyDE erzeugt.

Vergleichsinhalte: "A vs B"-strukturierte Beiträge passen auf natürliche Weise gleichzeitig zu mehreren Teilfragen, wenn vergleichende Anfragen zerlegt werden.

Sources: