Qu'est-ce qu'un Transformer ? | Glossaire GEO

Le Transformer est l'architecture de deep learning présentée dans l'article de Google de 2017 « Attention Is All You Need ». Grâce à l'auto-attention, chaque élément d'une séquence d'entrée se réfère à tous les autres pour construire le contexte. Chaque grand LLM de 2026, GPT, Claude, Gemini, Llama, repose sur une variante du Transformer.

Pourquoi c'est important

Les RNN et les LSTM qui ont précédé le Transformer perdaient le contexte sur les longues phrases et étaient difficiles à paralléliser, ce qui limitait l'entraînement à grande échelle. Le Transformer a résolu les deux problèmes d'un coup et a ouvert l'ère du « scaling de l'IA ». Les expériences de recherche actuelles de ChatGPT et de Claude existent toutes grâce à lui. Comprendre l'architecture est le préalable pour saisir pourquoi les LLM citent bien certains contenus et en ignorent d'autres.

Mécanismes fondamentaux

Auto-attention : chaque mot d'une phrase calcule un score de pertinence avec chaque autre mot. Dans « L'entreprise a choisi inblog, et elle a triplé le trafic de son blog », l'auto-attention détermine que « elle » renvoie à « l'entreprise », et non à « inblog ».

Attention multi-têtes : plusieurs têtes d'attention s'exécutent en parallèle, chacune apprenant un type de relation différent (syntaxique, sémantique, positionnel).

Encodage positionnel : comme l'attention en elle-même n'a pas d'ordre, des vecteurs de position sont injectés pour que le modèle connaisse l'ordre des mots.

Couches feed-forward : la représentation de chaque position est enrichie par des transformations non linéaires.

Empilement de couches : des dizaines à des centaines de blocs Transformer sont empilés pour apprendre des représentations contextuelles profondes.

Principales variantes

Encodeur seul (BERT, RoBERTa) : compréhension bidirectionnelle de l'entrée. Performant pour la classification et les embeddings. Le classement BERT de Google Search appartient à cette famille.

Décodeur seul (GPT, Claude, Llama) : prédiction du token suivant de gauche à droite, optimisée pour la génération. La plupart des LLM de 2026 sont à décodeur seul.

Encodeur-décodeur (T5, BART) : adapté aux tâches qui comprennent d'abord l'entrée, puis génèrent une nouvelle sortie, comme la traduction et le résumé.

Attention parcimonieuse et Mixture-of-Experts : réduisent le coût de calcul des longs contextes et des grands modèles en ne calculant qu'un sous-ensemble. Utilisées dans les modèles de pointe comme Claude Opus 4.8 et Gemini 3.5.

Limites

Complexité quadratique : l'auto-attention standard est en O(n²) sur la longueur de séquence. À 1 million de tokens de contexte, le calcul explose, d'où l'existence d'optimisations comme FlashAttention et l'attention linéaire.

Lost in the middle : les très longs contextes affaiblissent l'attention du modèle sur le contenu central. C'est pourquoi vous placez les informations clés en début et en fin de rédaction.

Hallucinations : comme le Transformer génère à partir de motifs appris, il peut répondre avec assurance en dehors de la distribution d'entraînement.

Nature de boîte noire : les scores d'attention sont en partie interprétables, mais les véritables processus de décision restent difficiles à expliquer.

Implications pour le GEO

Les LLM fondés sur le Transformer traitent le contenu différemment de la façon dont le SEO classique le conçoit.

Cohérence contextuelle : comme l'attention apprend les relations de mot à mot, les paragraphes dont les pronoms, les référents et les mots-clés thématiques sont clairement reliés sont mieux compris.

Mots-clés thématiques explicites : l'attention récompense l'auto-référence cohérente des termes clés. La répétition naturelle du mot-clé principal tout au long d'une section renforce le signal thématique.

Le début et la fin comptent : compte tenu de l'effet « lost in the middle », placez les informations clés au début et à la fin d'un article.

Marqueurs structurels : l'attention utilise les titres ###, les listes et les tableaux comme frontières sémantiques. Un contenu bien structuré est mieux analysé.

Sources: