什么是 Transformer？| GEO 术语表

Transformer 是在 Google 2017 年的论文《Attention Is All You Need》中提出的深度学习架构。通过自注意力机制，输入序列中的每个元素都会引用其他所有元素来构建上下文。2026 年的每一个主流 LLM，无论是 GPT、Claude、Gemini 还是 Llama，都运行在 Transformer 的某个变体之上。

为什么重要

在 Transformer 之前的 RNN 和 LSTM 在长句子上会丢失上下文，而且难以并行化，这限制了大规模训练。Transformer 一举解决了这两个问题，开启了"AI 规模化"的时代。如今的 ChatGPT 和 Claude 搜索体验之所以存在，全都得益于它。理解这一架构，是把握 LLM 为何能很好地引用某些内容、却忽略其他内容的基础。

核心机制

自注意力：句子中的每个词都会与其他每个词计算一个相关性分数。在"这家公司选择了 inblog，它们的博客流量翻了三倍"这句话中，自注意力会判断出"它们"指的是"这家公司"，而不是"inblog"。

多头注意力：多个注意力头并行运行，每个头学习一种不同类型的关系（句法、语义、位置）。

位置编码：由于注意力本身没有顺序，因此会注入位置向量，让模型知道词序。

前馈层：每个位置的表示都会通过非线性变换得到丰富。

层堆叠：从几十到几百个 Transformer 块堆叠在一起，以学习深层的上下文表示。

主要变体

仅编码器（BERT、RoBERTa）：对输入进行双向理解。在分类和嵌入方面表现强劲。Google 搜索的 BERT 排序就属于这一类。

仅解码器（GPT、Claude、Llama）：从左到右预测下一个 token，针对生成进行了优化。2026 年大多数 LLM 都是仅解码器架构。

编码器-解码器（T5、BART）：适合那些先理解输入、再生成新输出的任务，例如翻译和摘要。

稀疏注意力与混合专家（Mixture-of-Experts）：通过只计算一个子集，降低长上下文和大模型的计算成本。在 Claude Opus 4.8 和 Gemini 3.5 等前沿模型中均有使用。

局限性

二次方复杂度：标准自注意力在序列长度上是 O(n²)。在 100 万 token 的上下文下，计算量会爆炸式增长，这正是 FlashAttention 和线性注意力等优化存在的原因。

迷失在中间：极长的上下文会削弱模型对中间内容的注意力。这正是你在写作时要把关键信息放在开头和结尾的原因。

幻觉：由于 Transformer 是从学到的模式中生成内容，它可能会自信地回答超出训练分布范围的问题。

黑箱本质：注意力分数在一定程度上可以解释，但真正的决策过程仍然难以说清。

对 GEO 的影响

基于 Transformer 的 LLM 处理内容的方式，与经典 SEO 对内容的理解方式不同。

上下文一致性：由于注意力会学习词与词之间的关系，代词、指代对象和主题词之间衔接清晰的段落会被理解得更好。

明确的主题词：注意力会奖励关键词的一致自我指代。在一个章节中自然地重复主要关键词，能够强化主题信号。

开头和结尾很重要：鉴于"迷失在中间"效应，要把关键信息放在文章的开头和结尾。

结构标记：注意力会把 ### 标题、列表和表格当作语义边界。结构良好的内容更容易被解析。

Sources: