Transformer
Transformer - это архитектура глубокого обучения, представленная в статье Google 2017 года "Attention Is All You Need". Благодаря self-attention каждый элемент входной последовательности обращается к каждому другому, чтобы выстроить контекст. Каждая крупная LLM в 2026 году - GPT, Claude, Gemini, Llama - работает на варианте Transformer.
Transformer - это архитектура глубокого обучения, представленная в статье Google 2017 года "Attention Is All You Need". Благодаря self-attention каждый элемент входной последовательности обращается к каждому другому, чтобы выстроить контекст. Каждая крупная LLM в 2026 году - GPT, Claude, Gemini, Llama - работает на варианте Transformer.
Почему это важно
RNN и LSTM, предшествовавшие Transformer, теряли контекст на длинных предложениях и плохо распараллеливались, что ограничивало крупномасштабное обучение. Transformer исправил оба недостатка разом и открыл эпоху "масштабирования ИИ". Современный поиск через ChatGPT и Claude существует именно благодаря ему. Понимание этой архитектуры - основа, чтобы осознать, почему LLM хорошо цитируют один контент и упускают другой.
Основная механика
Self-attention: Каждое слово в предложении вычисляет оценку релевантности с каждым другим словом. В предложении "Компания выбрала inblog, и они утроили трафик своего блога" self-attention выясняет, что "они" относится к "компании", а не к "inblog".
Multi-head attention: Несколько голов внимания работают параллельно, каждая выучивает свой тип связи (синтаксический, семантический, позиционный).
Позиционное кодирование: Поскольку у самого внимания нет порядка, в модель встраиваются векторы позиций, чтобы она знала порядок слов.
Feed-forward-слои: Представление каждой позиции обогащается через нелинейные преобразования.
Стекирование слоёв: Десятки и сотни блоков Transformer уложены стопкой, чтобы выучить глубокие контекстные представления.
Основные варианты
Только энкодер (BERT, RoBERTa): Двунаправленное понимание входа. Сильны в классификации и эмбеддингах. Ранжирование BERT в Google Search относится к этому семейству.
Только декодер (GPT, Claude, Llama): Предсказание следующего токена слева направо, оптимизировано для генерации. Большинство LLM 2026 года - это только декодеры.
Энкодер-декодер (T5, BART): Хороши для задач, где сначала нужно понять вход, а затем сгенерировать новый вывод - перевод, суммаризация.
Разреженное внимание и Mixture-of-Experts: Снижают вычислительную стоимость длинных контекстов и крупных моделей, вычисляя только подмножество. Используются в передовых моделях, таких как Claude Opus 4.6 и Gemini 3.
Ограничения
Квадратичная сложность: Стандартный self-attention имеет сложность O(n²) по длине последовательности. На контекстах в 1 млн токенов вычисления взрываются - причина, по которой существуют оптимизации вроде FlashAttention и линейного внимания.
Потеря в середине: Очень длинные контексты ослабляют внимание модели к контенту в середине. Поэтому ключевую информацию выносят в начало и в конец текста.
Галлюцинации: Поскольку Transformer генерирует из выученных паттернов, он может уверенно отвечать за пределами обучающего распределения.
Природа чёрного ящика: Оценки внимания частично интерпретируемы, но реальные процессы принятия решений по-прежнему трудно объяснить.
Последствия для GEO
LLM на основе Transformer обрабатывают контент иначе, чем мыслит классическое SEO.
Контекстная связность: Поскольку внимание выучивает связи слово-к-слову, абзацы с чётко связанными местоимениями, референтами и тематическими словами понимаются лучше.
Явные тематические слова: Внимание вознаграждает последовательное самоупоминание ключевых терминов. Естественное повторение основного ключевого слова по всему разделу усиливает тематический сигнал.
Начало и конец имеют значение: С учётом эффекта "потери в середине" размещайте ключевую информацию в начале и в конце поста.
Структурные маркеры: Внимание использует заголовки ###, списки и таблицы как семантические границы. Хорошо структурированный контент разбирается лучше.
Источники: