Tokenization
Токенизация - это процесс разбиения текста на естественном языке на минимальные единицы - "токены", - которые LLM реально обрабатывает. Любой ввод, вывод, тарификация и лимит контекстного окна у LLM измеряются в токенах, а не в словах.
Токенизация - это процесс разбиения текста на естественном языке на минимальные единицы - "токены", - которые LLM реально обрабатывает. Любой ввод, вывод, тарификация и лимит контекстного окна у LLM измеряются в токенах, а не в словах.
Почему это важно
Токены - базовая валюта LLM. OpenAI, Anthropic и Google тарифицируют использование API по токенам, а контекстные окна задаются количеством токенов. Один и тот же фрагмент контента может стоить в 2-3 раза больше токенов в зависимости от языка и структуры текста, поэтому понимание токенизации напрямую влияет на стоимость и производительность для GEO, контент-стратегии и разработки ИИ-приложений.
Как работает токенизация
Большинство современных LLM используют Byte Pair Encoding (BPE) или его варианты, такие как SentencePiece и tiktoken.
- Токенизатор строит словарь, объединяя частые комбинации символов, встречающиеся в обучающих данных.
- Входной текст разбивается по этому словарю методом наибольшего совпадения.
- Распространённые английские слова становятся одним токеном; редкие слова и неанглийский текст дробятся на несколько токенов.
Пример на английском: "tokenization" -> ["token", "ization"] (2 токена)
Пример на корейском: "토큰화" -> ["토", "큰", "화"] или более мелкие разбиения по UTF-8-байтам, обычно 6-9 токенов
Особенности токенизации неанглийских языков
В английском в среднем ~1,3 токена на слово, но такие языки, как корейский, японский или тайский, могут использовать 1,5-2 токена на символ. Две причины:
Состав обучающих данных: Крупные обучающие корпуса LLM на 1-3% состоят из корейского, а значит, в словарь попадает мало выделенных корейских токенов.
Откат к Unicode: Символы вне словаря откатываются к разбиению по UTF-8-байтам, поэтому один символ может стать 2-3 токенами.
В результате корейский пост в блоге расходует примерно на 50% больше токенов, чем его английский эквивалент, - и вмещает меньше контента в то же контекстное окно.
Последствия для GEO
Плотность информации: Неанглийский контент платит больше за токен, поэтому ёмкие предложения, ясные заголовки и компактные формулировки повышают эффективность цитирования.
Устраняйте избыточность: Повторение одного и того же смысла впустую тратит драгоценный бюджет токенов при обработке LLM.
Выносите ключевую информацию вперёд: Когда бюджет токенов ограничен, LLM отдают приоритет более раннему контенту. Выигрывает письмо по принципу перевёрнутой пирамиды.
Двуязычные имена сущностей: Добавление английских терминов рядом с именами собственными на местном языке ("토큰화(Tokenization)") улучшает сопоставление с англоязычными запросами.
Источники: