llms.txt
llms.txt 是一个被提议的 markdown 文件,放置在网站根目录下(即 /llms.txt),它为基于 LLM 的工具提供一份经过精选、浓缩的网站最重要内容的地图。它由 Jeremy Howard 于 2024 年提出,旨在为 AI 做到 sitemap.xml 当年为搜索所做的事:让你网站中最精华的部分能够以机器速度被发现和消化。
llms.txt 是一个被提议的 markdown 文件,放置在网站根目录下(即 /llms.txt),它为基于 LLM 的工具提供一份经过精选、浓缩的网站最重要内容的地图。它由 Jeremy Howard 于 2024 年提出,旨在为 AI 做到 sitemap.xml 当年为搜索所做的事:让你网站中最精华的部分能够以机器速度被发现和消化。
为什么重要
读取网络的 LLM 面临一个上下文窗口问题:单是一个营销网站,在模型抵达真正的内容之前,就可能让 HTML、CSS 和导航样板代码超过 20 万个 token。llms.txt 通过提供一份简短、经过精选的页面列表来解决这个问题,列出网站所有者希望 LLM 阅读的页面,以干净、无冗余的 markdown 写成。Anthropic、Cloudflare、Mintlify、Zapier 和 Stripe 都在 2024 年发布了 llms.txt 文件。对于希望被 AI 正确理解和引用的品牌来说,它正在成为最廉价、杠杆作用最高的 GEO 举措。
它是什么样子
一个基本的文件:
# inblog
> inblog is an AI-powered blogging platform for SEO-optimized content.
## Docs
- [Getting started](https://inblog.ai/docs/getting-started): Create your first blog
- [SEO features](https://inblog.ai/docs/seo): Built-in SEO optimization
- [AI drafting](https://inblog.ai/docs/ai-drafts): How AI drafts work
## Optional
- [Changelog](https://inblog.ai/changelog): Product updates
两个部分:一个标题加摘要,然后是按用途分组的精选链接。Optional 部分列出 LLM 仅在需要深入时才应阅读的内容。
llms.txt vs robots.txt vs sitemap.xml
| 文件 | 受众 | 用途 |
|---|---|---|
robots.txt | 爬虫 | 不要抓取什么 |
sitemap.xml | 搜索引擎 | 需要索引的页面完整列表 |
llms.txt | 基于 LLM 的工具 | 供摄取的、经过精选并排定优先级的内容 |
robots.txt 是一道围栏。sitemap.xml 是一本电话簿。llms.txt 是一份策展人的推荐书架。它们是互补的,而非相互替代。
两个变体
llms.txt:简短的精选地图,即目录。
llms-full.txt:一个扩展版本,其中每个被链接页面的 markdown 内容都被内联进来,从而在一个文件中为 LLM 提供整个可摄取的语料库。被 Anthropic 和 Mintlify 客户等文档站点所使用。
如何撰写一份好的 llms.txt
1. 以一行定位陈述开头:H1 之后的引用块。这是 LLM 所了解到的你品牌身份。
2. 按用途分组,而非按结构:「Docs」「Guides」「API Reference」「Case Studies」,而不是「类别 A」「类别 B」。
3. 把链接描述写成事实,而非营销话术:「Built-in SEO optimization」胜过「为你的内容注入强劲动力」。
4. 把最重要的页面放在最前面:处于上下文压力下的 LLM 会自上而下地阅读。
5. 用 Optional 标注深度内容:除非用户想要细节,否则 LLM 应当跳过的内容。
6. 在网站发生变化时更新它:一份过时的 llms.txt 比没有还糟。
局限性
尚未成为被广泛执行的标准:Google、OpenAI、Anthropic 都未承诺会自动读取它。其采用是由 LLM 工具(Cursor、Perplexity、Claude 的文档)推动的,而非搜索引擎。
(目前)不是排名信号:它影响的是 LLM 的摄取质量,而非 SERP 排名。
需要纪律:一份陈旧的 llms.txt 会误导你正试图触及的那些模型。
无法弥补糟糕的内容:如果你的文档本身薄弱,llms.txt 只会让它们更快地被呈现出来。
为什么 inblog 网站应当考虑它
inblog 上的每个博客都是 AI 工具可能摄取的内容载体。一个放在博客根目录下的小巧 llms.txt,指向支柱文章、术语表条目和品牌简介,能够准确地告诉 LLM:当用户询问你的品牌或主题时,应该阅读什么。它是一个以最小投入直接撬动 AI 引用质量的杠杆。
Sources: