分词
分词是把自然语言文本切分成 LLM 实际处理的最小单位,也就是"token"的过程。每一次 LLM 的输入、输出、计费以及上下文窗口上限,都是以 token 而非词语来衡量的。
分词是把自然语言文本切分成 LLM 实际处理的最小单位,也就是"token"的过程。每一次 LLM 的输入、输出、计费以及上下文窗口上限,都是以 token 而非词语来衡量的。
为什么重要
Token 是 LLM 的基础货币。OpenAI、Anthropic 和 Google 都按 token 对 API 用量计费,上下文窗口也由 token 数定义。同一段内容,根据语言和文本结构的不同,可能多花 2 到 3 倍的 token,因此理解分词对 GEO、内容策略和 AI 应用开发都有着直接的成本与性能影响。
分词的工作原理
大多数现代 LLM 使用 字节对编码(BPE) 或其变体,如 SentencePiece 和 tiktoken。
- 分词器通过合并训练数据中频繁出现的字符组合来构建词表。
- 输入文本按这份词表采用最长匹配进行切分。
- 常见的英文单词会成为单个 token;生僻词和非英语文本则会被切分成多个 token。
英文示例:"tokenization" → ["token", "ization"](2 个 token)
韩语示例:"토큰화" → ["토", "큰", "화"] 或更细的 UTF-8 字节切分,通常为 6 到 9 个 token
非英语分词的特殊情况
英语平均每个词约 1.3 个 token,但韩语、日语或泰语这类语言每个字符可能用到 1.5 到 2 个 token。原因有二:
训练数据构成:主流 LLM 的训练语料中只有 1% 到 3% 是韩语,这意味着进入词表的专属韩语 token 很少。
Unicode 回退:词表外的字符会回退到 UTF-8 字节级切分,因此单个字符可能变成 2 到 3 个 token。
结果是,一篇韩语博客文章消耗的 token 大约比其英文对应版本多 50%,在相同的上下文窗口里能容纳的内容也更少。
对 GEO 的意义
信息密度:非英语内容每个 token 的代价更高,因此精炼的句子、清晰的标题和紧凑的措辞能提升引用效率。
消除冗余:重复表达同一含义会在 LLM 处理时浪费宝贵的 token 预算。
前置关键信息:当 token 预算紧张时,LLM 会优先处理靠前的内容。倒金字塔式的写法更占优势。
双语实体名称:在本地语言专有名词旁附上英文术语("토큰화(Tokenization)"),能提升与英文查询的匹配度。
Sources: