什么是分词？| GEO 术语表

分词是把自然语言文本切分成 LLM 实际处理的最小单位，也就是"token"的过程。每一次 LLM 的输入、输出、计费以及上下文窗口上限，都是以 token 而非词语来衡量的。

为什么重要

Token 是 LLM 的基础货币。OpenAI、Anthropic 和 Google 都按 token 对 API 用量计费，上下文窗口也由 token 数定义。同一段内容，根据语言和文本结构的不同，可能多花 2 到 3 倍的 token，因此理解分词对 GEO、内容策略和 AI 应用开发都有着直接的成本与性能影响。

分词的工作原理

大多数现代 LLM 使用 字节对编码（BPE） 或其变体，如 SentencePiece 和 tiktoken。

分词器通过合并训练数据中频繁出现的字符组合来构建词表。
输入文本按这份词表采用最长匹配进行切分。
常见的英文单词会成为单个 token；生僻词和非英语文本则会被切分成多个 token。

英文示例："tokenization" → ["token", "ization"]（2 个 token） 韩语示例："토큰화" → ["토", "큰", "화"] 或更细的 UTF-8 字节切分，通常为 6 到 9 个 token

非英语分词的特殊情况

英语平均每个词约 1.3 个 token，但韩语、日语或泰语这类语言每个字符可能用到 1.5 到 2 个 token。原因有二：

训练数据构成：主流 LLM 的训练语料中只有 1% 到 3% 是韩语，这意味着进入词表的专属韩语 token 很少。

Unicode 回退：词表外的字符会回退到 UTF-8 字节级切分，因此单个字符可能变成 2 到 3 个 token。

结果是，一篇韩语博客文章消耗的 token 大约比其英文对应版本多 50%，在相同的上下文窗口里能容纳的内容也更少。

对 GEO 的意义

信息密度：非英语内容每个 token 的代价更高，因此精炼的句子、清晰的标题和紧凑的措辞能提升引用效率。

消除冗余：重复表达同一含义会在 LLM 处理时浪费宝贵的 token 预算。

前置关键信息：当 token 预算紧张时，LLM 会优先处理靠前的内容。倒金字塔式的写法更占优势。

双语实体名称：在本地语言专有名词旁附上英文术语（"토큰화(Tokenization)"），能提升与英文查询的匹配度。

Sources: