Transformer
Transformer 是在 Google 2017 年的论文《Attention Is All You Need》中提出的深度学习架构。通过自注意力机制,输入序列中的每个元素都会引用其他所有元素来构建上下文。2026 年的每一个主流 LLM,无论是 GPT、Claude、Gemini 还是 Llama,都运行在 Transformer 的某个变体之上。
Transformer 是在 Google 2017 年的论文《Attention Is All You Need》中提出的深度学习架构。通过自注意力机制,输入序列中的每个元素都会引用其他所有元素来构建上下文。2026 年的每一个主流 LLM,无论是 GPT、Claude、Gemini 还是 Llama,都运行在 Transformer 的某个变体之上。
为什么重要
在 Transformer 之前的 RNN 和 LSTM 在长句子上会丢失上下文,而且难以并行化,这限制了大规模训练。Transformer 一举解决了这两个问题,开启了"AI 规模化"的时代。如今的 ChatGPT 和 Claude 搜索体验之所以存在,全都得益于它。理解这一架构,是把握 LLM 为何能很好地引用某些内容、却忽略其他内容的基础。
核心机制
自注意力:句子中的每个词都会与其他每个词计算一个相关性分数。在"这家公司选择了 inblog,它们的博客流量翻了三倍"这句话中,自注意力会判断出"它们"指的是"这家公司",而不是"inblog"。
多头注意力:多个注意力头并行运行,每个头学习一种不同类型的关系(句法、语义、位置)。
位置编码:由于注意力本身没有顺序,因此会注入位置向量,让模型知道词序。
前馈层:每个位置的表示都会通过非线性变换得到丰富。
层堆叠:从几十到几百个 Transformer 块堆叠在一起,以学习深层的上下文表示。
主要变体
仅编码器(BERT、RoBERTa):对输入进行双向理解。在分类和嵌入方面表现强劲。Google 搜索的 BERT 排序就属于这一类。
仅解码器(GPT、Claude、Llama):从左到右预测下一个 token,针对生成进行了优化。2026 年大多数 LLM 都是仅解码器架构。
编码器-解码器(T5、BART):适合那些先理解输入、再生成新输出的任务,例如翻译和摘要。
稀疏注意力与混合专家(Mixture-of-Experts):通过只计算一个子集,降低长上下文和大模型的计算成本。在 Claude Opus 4.6 和 Gemini 3 等前沿模型中均有使用。
局限性
二次方复杂度:标准自注意力在序列长度上是 O(n²)。在 100 万 token 的上下文下,计算量会爆炸式增长,这正是 FlashAttention 和线性注意力等优化存在的原因。
迷失在中间:极长的上下文会削弱模型对中间内容的注意力。这正是你在写作时要把关键信息放在开头和结尾的原因。
幻觉:由于 Transformer 是从学到的模式中生成内容,它可能会自信地回答超出训练分布范围的问题。
黑箱本质:注意力分数在一定程度上可以解释,但真正的决策过程仍然难以说清。
对 GEO 的影响
基于 Transformer 的 LLM 处理内容的方式,与经典 SEO 对内容的理解方式不同。
上下文一致性:由于注意力会学习词与词之间的关系,代词、指代对象和主题词之间衔接清晰的段落会被理解得更好。
明确的主题词:注意力会奖励关键词的一致自我指代。在一个章节中自然地重复主要关键词,能够强化主题信号。
开头和结尾很重要:鉴于"迷失在中间"效应,要把关键信息放在文章的开头和结尾。
结构标记:注意力会把 ### 标题、列表和表格当作语义边界。结构良好的内容更容易被解析。
Sources: