GEO

Chunking

Chunking ist der Vorgang, lange Dokumente in kleinere, bedeutungstragende Einheiten (Chunks) aufzuteilen, die LLMs und Vektordatenbanken verarbeiten können. Es ist ein verpflichtender Vorverarbeitungsschritt in RAG-Pipelines, bevor Webseiten, PDFs oder Dokumente eingebettet werden, und jeder Chunk wird zur kleinsten Einheit, die eine KI in ihrer Antwort zitieren kann.

Chunking ist der Vorgang, lange Dokumente in kleinere, bedeutungstragende Einheiten (Chunks) aufzuteilen, die LLMs und Vektordatenbanken verarbeiten können. Es ist ein verpflichtender Vorverarbeitungsschritt in RAG-Pipelines, bevor Webseiten, PDFs oder Dokumente eingebettet werden, und jeder Chunk wird zur kleinsten Einheit, die eine KI in ihrer Antwort zitieren kann.

Warum es wichtig ist

Wenn die AI-Suche eine Antwort erzeugt, zitiert sie den relevantesten Chunk, nicht die gesamte Seite. Zwei Versionen desselben Blogbeitrags können je nach Chunking völlig unterschiedliche KI-Zitate hervorbringen. Die Engineering-Blogs von Anthropic und OpenAI berichten, dass gut abgestimmtes Chunking die Abrufgenauigkeit von RAG um 30 bis 50 % gegenüber der Ausgangsbasis verbessert. Daher stammt das GEO-Prinzip "in Chunks schreiben".

Wichtigste Chunking-Strategien

Chunking mit fester Größe: Teilt nach einer festen Token-Zahl wie 500 oder 1.000. Einfach, aber bricht mitten im Satz ab und verliert Kontext.

Rekursiv (Satz/Absatz): Teilt Absätze, dann Sätze, dann Wörter und bewahrt so natürliche Grenzen. Die Standardeinstellung in den meisten RAG-Pipelines.

Semantisches Chunking: Nutzt die Ähnlichkeit von Embeddings, um Themenwechsel zu erkennen und dort zu teilen. Höchste Qualität, aber rechnerisch aufwendig.

Dokumentbewusstes Chunking: Nutzt Markdown- oder HTML-###-Überschriften als Grenzen. Am wirksamsten für strukturierte Inhalte wie Blogbeiträge.

Überlappung: Dupliziert 10 bis 20 % des Inhalts über benachbarte Chunks hinweg, damit an der Nahtstelle kein Kontext verloren geht.

Auswirkungen auf das GEO-Schreiben

Abschnitte müssen für sich allein stehen: Chunks entsprechen typischerweise ###-Abschnitten. Wenn ein Abschnitt vom vorherigen abhängt, um Sinn zu ergeben, bricht er, wenn er isoliert zitiert wird.

Thema und Kontext in jedem Abschnitt einbeziehen: Schreiben Sie "inblog verarbeitet..." statt "dieses Werkzeug verarbeitet...", jeder Absatz sollte in sich geschlossen sein.

Richtige Länge: Sehr kurze Abschnitte enthalten zu wenig Information, um zitierwürdig zu sein; sehr lange Abschnitte verwässern ihre Embedding-Bedeutung. 200 bis 500 Wörter sind der ideale Bereich.

Überschriften bei Themenwechseln: Wenn ein einzelner Abschnitt mehrere Themen mischt, teilen Chunker an ungünstigen Stellen. Fügen Sie bei jedem Themenwechsel eine klare ###-Überschrift hinzu.

FAQ-Blöcke: Frage-Antwort-Paare bilden von Natur aus in sich geschlossene Chunks, sodass das Aufteilen wichtiger Fragen in einen FAQ-Abschnitt die Zitierwahrscheinlichkeit deutlich erhöht.

Sources: