但是 llms.txt 到底是什么,谁在使用它,更重要的是,你应该关心它吗?
LLMs
llms.txt 是一项拟议标准,旨在帮助法学硕士 (LLM) 访问和解读网站上的结构化内容。您可以在llmstext.org上阅读完整提案。
简而言之,它是一个文本文件,旨在告诉 LLM 在哪里可以找到有用的内容:API 文档、退货政策、产品分类法以及其他上下文丰富的资源。其目标是通过为语言模型提供一张精心挑选的高价值内容图谱来消除歧义,这样他们就无需猜测哪些内容重要。

https://llmstxt.org/ 上提议标准的屏幕截图。
理论上,这听起来是个好主意。我们已经使用robots.txt和sitemap.xml等文件来帮助搜索引擎了解网站上的内容以及应该去哪里查找。为什么不把同样的逻辑应用到法学硕士 (LLM) 上呢?
但重要的是,目前没有一家主流的 LLM 提供商支持 llms.txt。OpenAI不支持,Anthropic 不支持,谷歌也不支持。
正如我在简介中所说,llms.txt 是一个拟议标准。我也可以提出一个标准(就叫它“请发送流量机器人霸主”吧),但除非主要的 LLM 提供商同意使用它,否则它毫无意义。
这就是我们对 llms.txt 的看法:这只是一个推测性的想法,尚未得到官方采纳。
llms.txt 可能不会影响您在线的可见性,但 robots.txt 肯定会。
您可以使用 Ahrefs 的站点审核来监控数百个常见的技术 SEO 问题,包括 robots.txt 文件的问题,这些问题可能会严重影响您的可见性(甚至阻止您的网站被抓取)。
llms.txt 文件在实际中是这样的。这是Anthropic 实际 llms.txt 文件的屏幕截图:
llms.txt 的核心是一个Markdown文档(一种特殊格式的文本文件)。它使用 H2 标题来组织指向关键资源的链接。以下是您可以使用的示例结构:
# llms.txt ## 文档 - /api.md API 方法、身份验证、速率限制和示例请求的摘要。 - /quickstart.md 帮助开发人员快速开始使用平台的设置指南。 ## 政策 - /terms.md 概述服务使用情况的法律条款。 - /returns.md 有关退货资格和处理的信息。 ## 产品 - /catalog.md 产品类别、SKU 和元数据的结构化索引。 - /sizing-guide.md 跨类别产品尺寸的参考指南。
您可以在几分钟内制作自己的 llms.txt:
- 从基本的Markdown 文件开始。
- 使用 H2s 按类型对资源进行分组。
- 链接到结构化、markdown 友好的内容。
- 保持更新。
- 将其托管在您的根域上:https://yourdomain.com/llms.txt
您可以自己创建它,也可以使用免费的 llms.txt 生成器(如这个)来为您创建它。
我读到过一些开发人员也在他们的 llms.txt 文件中尝试使用 LLM 特定的元数据,比如令牌预算或首选文件格式(但没有证据表明爬虫或 LLM 模型尊重这一点)。
您可以在directory.llmstxt.cloud(社区维护的公共 llms.txt 文件索引)上查看使用 llms.txt 的公司列表。
以下是一些示例:
- Mintlify:开发者文档平台。
- Tinybird:实时数据 API。
- Cloudflare:列出性能和安全文档。
- Anthropic:发布其 API 文档的完整 Markdown 地图。
但大公司又如何呢?
到目前为止,还没有主要的 LLM 提供商正式采用 llms.txt作为其爬虫协议的一部分:
- OpenAI(GPTBot):尊重 robots.txt,但不正式使用 llms.txt。
- Anthropic(Claude):发布自己的 llms.txt,但没有声明其爬虫使用该标准。
- Google(Gemini/Bard):使用 robots.txt(通过用户代理:Google-Extended)来管理 AI 爬行行为,没有提及 llms.txt 支持。
- Meta(LLaMA):没有公共爬虫或指南,也没有关于 llms.txt 使用情况的指示。
这凸显了一个重要的观点:创建 llms.txt 文件并不等同于在爬虫行为中强制执行该文件。目前,大多数 LLM 供应商都只将 llms.txt 文件视为一个有趣的想法,而不是他们已同意优先考虑和遵循的方案。
我认为,还没有。
没有证据表明 llms.txt 能够改善 AI 检索、提升流量或提高模型准确率。而且也没有任何提供商承诺对其进行解析。
但它的设置也非常简单。如果你已经有了结构化内容,例如产品页面或开发者文档,那么编写 llms.txt 就轻而易举了。它是一个 Markdown 文件,托管在你自己的网站上。它可能没有明显的优势,但也没有任何风险。如果 LLM 最终将其作为标准,那么作为早期采用者可能会有一些小的优势。
我认为 llms.txt 之所以越来越受欢迎,是因为我们都想影响LLM 的可见性,但却缺乏相应的工具。所以我们会抓住那些感觉像是在掌控一切的想法不放。
但我个人认为,llms.txt 是一个寻找问题的解决方案。搜索引擎已经使用 robots.txt 和 sitemap.xml 等现有标准来抓取和理解你的内容。LLM 也使用了许多相同的基础架构。
正如谷歌的 John Mueller最近在 Reddit 帖子中所说: