Что такое токенизация? | Глоссарий GEO

Токенизация - это процесс разбиения текста на естественном языке на минимальные единицы - "токены", - которые LLM реально обрабатывает. Любой ввод, вывод, тарификация и лимит контекстного окна у LLM измеряются в токенах, а не в словах.

Почему это важно

Токены - базовая валюта LLM. OpenAI, Anthropic и Google тарифицируют использование API по токенам, а контекстные окна задаются количеством токенов. Один и тот же фрагмент контента может стоить в 2-3 раза больше токенов в зависимости от языка и структуры текста, поэтому понимание токенизации напрямую влияет на стоимость и производительность для GEO, контент-стратегии и разработки ИИ-приложений.

Как работает токенизация

Большинство современных LLM используют Byte Pair Encoding (BPE) или его варианты, такие как SentencePiece и tiktoken.

Токенизатор строит словарь, объединяя частые комбинации символов, встречающиеся в обучающих данных.
Входной текст разбивается по этому словарю методом наибольшего совпадения.
Распространённые английские слова становятся одним токеном; редкие слова и неанглийский текст дробятся на несколько токенов.

Пример на английском: "tokenization" -> ["token", "ization"] (2 токена) Пример на корейском: "토큰화" -> ["토", "큰", "화"] или более мелкие разбиения по UTF-8-байтам, обычно 6-9 токенов

Особенности токенизации неанглийских языков

В английском в среднем ~1,3 токена на слово, но такие языки, как корейский, японский или тайский, могут использовать 1,5-2 токена на символ. Две причины:

Состав обучающих данных: Крупные обучающие корпуса LLM на 1-3% состоят из корейского, а значит, в словарь попадает мало выделенных корейских токенов.

Откат к Unicode: Символы вне словаря откатываются к разбиению по UTF-8-байтам, поэтому один символ может стать 2-3 токенами.

В результате корейский пост в блоге расходует примерно на 50% больше токенов, чем его английский эквивалент, - и вмещает меньше контента в то же контекстное окно.

Последствия для GEO

Плотность информации: Неанглийский контент платит больше за токен, поэтому ёмкие предложения, ясные заголовки и компактные формулировки повышают эффективность цитирования.

Устраняйте избыточность: Повторение одного и того же смысла впустую тратит драгоценный бюджет токенов при обработке LLM.

Выносите ключевую информацию вперёд: Когда бюджет токенов ограничен, LLM отдают приоритет более раннему контенту. Выигрывает письмо по принципу перевёрнутой пирамиды.

Двуязычные имена сущностей: Добавление английских терминов рядом с именами собственными на местном языке ("토큰화(Tokenization)") улучшает сопоставление с англоязычными запросами.

Источники: