Transformerとは？ | GEO用語集

Transformerは、Googleの2017年の論文「Attention Is All You Need」で発表されたディープラーニングのアーキテクチャです。自己注意機構を通じて、入力シーケンスのすべての要素が他のすべての要素を参照し、コンテキストを構築します。2026年の主要なLLM、GPT、Claude、Gemini、Llamaはすべて、Transformerの変種の上で動作しています。

なぜ重要か

Transformer以前のRNNやLSTMは、長い文ではコンテキストを失い、並列化も難しかったため、大規模な学習が制限されていました。Transformerはその両方を一度に解決し、「AIスケーリング」の時代を切り開きました。今日のChatGPTやClaudeの検索体験は、すべてこれのおかげで存在しています。このアーキテクチャを理解することは、LLMがなぜ一部のコンテンツをうまく引用し、他のコンテンツを見落とすのかを把握するための基礎です。

コアな仕組み

自己注意機構: 文中のすべての単語が、他のすべての単語との関連度スコアを計算します。「The company picked inblog, and they tripled their blog traffic」という文では、自己注意機構が「they」は「inblog」ではなく「the company」を指していると突き止めます。

マルチヘッド注意機構: 複数の注意ヘッドが並列で動作し、それぞれが異なる種類の関係（構文的、意味的、位置的）を学習します。

位置エンコーディング: 注意機構自体には順序の概念がないため、モデルが単語の順序を把握できるよう位置ベクトルが注入されます。

フィードフォワード層: 各位置の表現が、非線形変換を通じて豊かになります。

層の積み重ね: 数十から数百のTransformerブロックを積み重ね、深い文脈表現を学習します。

主な変種

エンコーダのみ (BERT、RoBERTa): 入力を双方向に理解します。分類や埋め込みに強いです。Google検索のBERTランキングはこの系統です。

デコーダのみ (GPT、Claude、Llama): 左から右への次トークン予測で、生成に最適化されています。2026年のほとんどのLLMはデコーダのみです。

エンコーダ・デコーダ (T5、BART): まず入力を理解し、その後に新しい出力を生成するタスク、つまり翻訳や要約に適しています。

スパース注意機構とMixture-of-Experts: 一部のみを計算することで、長いコンテキストや大規模モデルの計算コストを削減します。Claude Opus 4.8やGemini 3.5のような最先端モデルで使われています。

制約

二次的な計算量: 標準的な自己注意機構は、シーケンス長に対してO(n²)です。100万トークンのコンテキストでは計算量が爆発します。これがFlashAttentionや線形注意機構のような最適化が存在する理由です。

ロスト・イン・ザ・ミドル: 非常に長いコンテキストでは、中間部分のコンテンツに対するモデルの注意が弱まります。これが、ライティングにおいて重要な情報を前方と後方に配置する理由です。

ハルシネーション: Transformerは学習したパターンから生成するため、学習分布の外側にあることでも自信を持って答えてしまうことがあります。

ブラックボックス性: 注意スコアは部分的には解釈可能ですが、実際の意思決定プロセスは依然として説明が困難です。

GEOへの示唆

TransformerベースのLLMは、従来のSEOが考えるのとは異なる方法でコンテンツを処理します。

文脈の一貫性: 注意機構が単語同士の関係を学習するため、代名詞、参照先、トピック語が明確に結びついた段落はよりよく理解されます。

明示的なトピック語: 注意機構は、重要な用語の一貫した自己参照を評価します。セクション全体を通じて主要なキーワードを自然に繰り返すことで、トピックのシグナルが鋭くなります。

始まりと終わりが重要: 「ロスト・イン・ザ・ミドル」効果を踏まえ、重要な情報は投稿の冒頭と末尾に置きましょう。

構造的なマーカー: 注意機構は###見出し、リスト、テーブルを意味的な境界として利用します。よく構造化されたコンテンツの方がうまく解析されます。

Sources: