Tokenization
Tokenization ist der Prozess, natürlichsprachlichen Text in die kleinsten Einheiten, die "Tokens", aufzuteilen, die ein LLM tatsächlich verarbeitet. Jede LLM-Eingabe, jede Ausgabe, jede Abrechnungsgebühr und jede Grenze des Kontextfensters wird in Tokens gemessen, nicht in Wörtern.
Tokenization ist der Prozess, natürlichsprachlichen Text in die kleinsten Einheiten, die "Tokens", aufzuteilen, die ein LLM tatsächlich verarbeitet. Jede LLM-Eingabe, jede Ausgabe, jede Abrechnungsgebühr und jede Grenze des Kontextfensters wird in Tokens gemessen, nicht in Wörtern.
Warum es wichtig ist
Tokens sind die Basiswährung von LLMs. OpenAI, Anthropic und Google rechnen die API-Nutzung allesamt pro Token ab, und Kontextfenster werden durch Token-Zahlen definiert. Ein und derselbe Inhalt kann je nach Sprache und Textstruktur 2- bis 3-mal mehr Tokens kosten, sodass das Verständnis von Tokenization direkte Auswirkungen auf Kosten und Leistung für GEO, Content-Strategie und die Entwicklung von KI-Anwendungen hat.
Wie Tokenization funktioniert
Die meisten modernen LLMs nutzen Byte Pair Encoding (BPE) oder Varianten wie SentencePiece und tiktoken.
- Der Tokenizer baut ein Vokabular auf, indem er häufige Zeichenkombinationen aus den Trainingsdaten zusammenführt.
- Der Eingabetext wird anhand dieses Vokabulars per Longest-Match aufgeteilt.
- Häufige englische Wörter werden zu einem einzigen Token; seltene Wörter und nicht englischer Text werden in mehrere Tokens zerlegt.
Englisches Beispiel: "tokenization" -> ["token", "ization"] (2 Tokens)
Koreanisches Beispiel: "토큰화" -> ["토", "큰", "화"] oder feinere UTF-8-Byte-Aufteilungen, typischerweise 6 bis 9 Tokens
Eigenheiten der Tokenization bei nicht englischem Text
Englisch kommt im Schnitt auf etwa 1,3 Tokens pro Wort, doch Sprachen wie Koreanisch, Japanisch oder Thai können 1,5 bis 2 Tokens pro Zeichen verbrauchen. Zwei Gründe:
Mix der Trainingsdaten: Die großen LLM-Trainingskorpora sind zu 1 bis 3 % koreanisch, was bedeutet, dass nur wenige dedizierte koreanische Tokens ins Vokabular gelangen.
Unicode-Fallback: Zeichen, die nicht im Vokabular sind, fallen auf eine Aufteilung auf UTF-8-Byte-Ebene zurück, sodass ein einzelnes Zeichen zu 2 bis 3 Tokens werden kann.
Im Ergebnis verbraucht ein koreanischer Blogbeitrag rund 50 % mehr Tokens als sein englisches Pendant, und passt weniger Inhalt in dasselbe Kontextfenster.
Bedeutung für GEO
Informationsdichte: Nicht englische Inhalte zahlen mehr pro Token, daher verbessern knappe Sätze, klare Überschriften und kompakte Formulierungen die Zitiereffizienz.
Redundanz beseitigen: Dieselbe Bedeutung zu wiederholen, verschwendet während der LLM-Verarbeitung kostbares Token-Budget.
Schlüsselinformationen voranstellen: Wenn das Token-Budget knapp ist, priorisieren LLMs frühere Inhalte. Schreiben nach dem Prinzip der umgekehrten Pyramide gewinnt.
Zweisprachige Entitätsnamen: Englische Begriffe neben Eigennamen in der Landessprache hinzuzufügen ("토큰화(Tokenization)"), verbessert den Abgleich mit englischen Anfragen.
Sources: