Что такое Transformer? | Глоссарий GEO

Transformer - это архитектура глубокого обучения, представленная в статье Google 2017 года "Attention Is All You Need". Благодаря self-attention каждый элемент входной последовательности обращается к каждому другому, чтобы выстроить контекст. Каждая крупная LLM в 2026 году - GPT, Claude, Gemini, Llama - работает на варианте Transformer.

Почему это важно

RNN и LSTM, предшествовавшие Transformer, теряли контекст на длинных предложениях и плохо распараллеливались, что ограничивало крупномасштабное обучение. Transformer исправил оба недостатка разом и открыл эпоху "масштабирования ИИ". Современный поиск через ChatGPT и Claude существует именно благодаря ему. Понимание этой архитектуры - основа, чтобы осознать, почему LLM хорошо цитируют один контент и упускают другой.

Основная механика

Self-attention: Каждое слово в предложении вычисляет оценку релевантности с каждым другим словом. В предложении "Компания выбрала inblog, и они утроили трафик своего блога" self-attention выясняет, что "они" относится к "компании", а не к "inblog".

Multi-head attention: Несколько голов внимания работают параллельно, каждая выучивает свой тип связи (синтаксический, семантический, позиционный).

Позиционное кодирование: Поскольку у самого внимания нет порядка, в модель встраиваются векторы позиций, чтобы она знала порядок слов.

Feed-forward-слои: Представление каждой позиции обогащается через нелинейные преобразования.

Стекирование слоёв: Десятки и сотни блоков Transformer уложены стопкой, чтобы выучить глубокие контекстные представления.

Основные варианты

Только энкодер (BERT, RoBERTa): Двунаправленное понимание входа. Сильны в классификации и эмбеддингах. Ранжирование BERT в Google Search относится к этому семейству.

Только декодер (GPT, Claude, Llama): Предсказание следующего токена слева направо, оптимизировано для генерации. Большинство LLM 2026 года - это только декодеры.

Энкодер-декодер (T5, BART): Хороши для задач, где сначала нужно понять вход, а затем сгенерировать новый вывод - перевод, суммаризация.

Разреженное внимание и Mixture-of-Experts: Снижают вычислительную стоимость длинных контекстов и крупных моделей, вычисляя только подмножество. Используются в передовых моделях, таких как Claude Opus 4.8 и Gemini 3.5.

Ограничения

Квадратичная сложность: Стандартный self-attention имеет сложность O(n²) по длине последовательности. На контекстах в 1 млн токенов вычисления взрываются - причина, по которой существуют оптимизации вроде FlashAttention и линейного внимания.

Потеря в середине: Очень длинные контексты ослабляют внимание модели к контенту в середине. Поэтому ключевую информацию выносят в начало и в конец текста.

Галлюцинации: Поскольку Transformer генерирует из выученных паттернов, он может уверенно отвечать за пределами обучающего распределения.

Природа чёрного ящика: Оценки внимания частично интерпретируемы, но реальные процессы принятия решений по-прежнему трудно объяснить.

Последствия для GEO

LLM на основе Transformer обрабатывают контент иначе, чем мыслит классическое SEO.

Контекстная связность: Поскольку внимание выучивает связи слово-к-слову, абзацы с чётко связанными местоимениями, референтами и тематическими словами понимаются лучше.

Явные тематические слова: Внимание вознаграждает последовательное самоупоминание ключевых терминов. Естественное повторение основного ключевого слова по всему разделу усиливает тематический сигнал.

Начало и конец имеют значение: С учётом эффекта "потери в середине" размещайте ключевую информацию в начале и в конце поста.

Структурные маркеры: Внимание использует заголовки ###, списки и таблицы как семантические границы. Хорошо структурированный контент разбирается лучше.

Источники: