Was ist ein Transformer? | GEO-Glossar

Der Transformer ist die Deep-Learning-Architektur, die in Googles Paper "Attention Is All You Need" aus dem Jahr 2017 vorgestellt wurde. Durch Self-Attention bezieht sich jedes Element einer Eingabesequenz auf jedes andere, um Kontext aufzubauen. Jedes große LLM im Jahr 2026, ob GPT, Claude, Gemini oder Llama, läuft auf einer Variante des Transformers.

Warum es wichtig ist

RNNs und LSTMs, die dem Transformer vorausgingen, verloren über lange Sätze hinweg den Kontext und ließen sich nur schwer parallelisieren, was das groß angelegte Training begrenzte. Der Transformer behob beides auf einen Schlag und eröffnete die Ära der "KI-Skalierung". Die heutigen Sucherlebnisse von ChatGPT und Claude existieren allesamt nur deshalb. Das Verständnis der Architektur ist die Grundlage dafür, zu begreifen, warum LLMs manche Inhalte gut zitieren und andere übersehen.

Kernmechanik

Self-Attention: Jedes Wort in einem Satz berechnet einen Relevanzwert mit jedem anderen Wort. In "Das Unternehmen wählte inblog, und es verdreifachte seinen Blog-Traffic" findet Self-Attention heraus, dass sich "es" auf "das Unternehmen" bezieht, nicht auf "inblog".

Multi-Head Attention: Mehrere Attention-Heads laufen parallel, wobei jeder eine andere Art von Beziehung lernt (syntaktisch, semantisch, positionell).

Positional Encoding: Da Attention an sich keine Reihenfolge kennt, werden Positionsvektoren eingespeist, damit das Modell die Wortreihenfolge kennt.

Feed-Forward-Schichten: Die Repräsentation jeder Position wird durch nichtlineare Transformationen angereichert.

Schichtstapelung: Dutzende bis Hunderte von Transformer-Blöcken werden gestapelt, um tiefe kontextuelle Repräsentationen zu lernen.

Hauptvarianten

Nur Encoder (BERT, RoBERTa): Bidirektionales Verständnis der Eingabe. Stark bei Klassifizierung und Embeddings. Das BERT-Ranking der Google-Suche gehört zu dieser Familie.

Nur Decoder (GPT, Claude, Llama): Vorhersage des nächsten Tokens von links nach rechts, optimiert für die Generierung. Die meisten LLMs des Jahres 2026 sind reine Decoder.

Encoder-Decoder (T5, BART): Gut für Aufgaben, die zuerst die Eingabe verstehen und dann eine neue Ausgabe erzeugen, etwa Übersetzung und Zusammenfassung.

Sparse Attention und Mixture-of-Experts: Senken die Rechenkosten langer Kontexte und großer Modelle, indem nur eine Teilmenge berechnet wird. Verwendet in Spitzenmodellen wie Claude Opus 4.8 und Gemini 3.5.

Grenzen

Quadratische Komplexität: Standard-Self-Attention ist O(n²) in der Sequenzlänge. Bei Kontexten von 1 Mio. Token explodiert die Rechnung, weshalb es Optimierungen wie FlashAttention und Linear Attention gibt.

Lost in the Middle: Sehr lange Kontexte schwächen die Aufmerksamkeit des Modells auf Inhalte in der Mitte. Deshalb platzieren Sie Schlüsselinformationen am Anfang und am Ende Ihres Textes.

Halluzinationen: Da der Transformer aus gelernten Mustern generiert, kann er außerhalb der Trainingsverteilung selbstbewusst antworten.

Black-Box-Charakter: Attention-Werte sind teilweise interpretierbar, doch die tatsächlichen Entscheidungsprozesse bleiben schwer zu erklären.

GEO-Implikationen

Transformer-basierte LLMs verarbeiten Inhalte anders, als klassisches SEO darüber denkt.

Kontextuelle Konsistenz: Da Attention Wort-zu-Wort-Beziehungen lernt, werden Absätze mit klar verknüpften Pronomen, Bezügen und Themenwörtern besser verstanden.

Explizite Themenwörter: Attention belohnt die konsistente Selbstreferenz von Schlüsselbegriffen. Die natürliche Wiederholung des zentralen Keywords über einen Abschnitt hinweg schärft das Themensignal.

Anfang und Ende zählen: Angesichts des "Lost in the Middle"-Effekts platzieren Sie Schlüsselinformationen am Anfang und am Ende eines Beitrags.

Strukturmarker: Attention nutzt ###-Überschriften, Listen und Tabellen als semantische Grenzen. Gut strukturierte Inhalte werden besser geparst.

Sources: