了解 llms.txt 是什么、它如何工作、如何看待它、法学硕士 (LLM) 和品牌是否在购买,以及为什么你应该关注它。
为了满足大型语言模型对网络内容的可爬行性和可索引性的需求,澳大利亚技术专家 Jeremy Howard 提出了新的 AI/LLM 标准提案。
他提出的llms.txt的作用与 robots.txt 和 XML 站点地图协议有些类似,以便抓取和读取整个网站,从而减少 LLM 抓取和发现网站内容的资源压力。
但它还提供了额外的好处——完全内容扁平化——这对品牌和内容创作者来说可能是一件好事。
虽然许多内容创作者对该提案的潜在优点感兴趣,但也有人对其提出批评。
但考虑到人工智能世界中产生的内容格局的快速变化,llms.txt 肯定值得讨论。
人工智能可访问网站内容的新标准
3 月 10 日, Bluesky 首席执行官杰伊·格雷伯 (Jay Graber)在德克萨斯州奥斯汀的 SXSW Interactive 上推动了有关内容创作者权利和数据控制的讨论,因为这与用于人工智能训练有关。
该提案在细节上非常稳健且雄心勃勃,为未来如何在 LLM 庞大的数据和内容需求下控制用户内容提供了许多值得思考的地方。
但去年 9 月,针对网络内容创建者出现了一种可能更简单的潜在协议,虽然不如其他提案那么广泛,但 llms.txt 在一定程度上保证了所有者在访问什么内容和访问量方面拥有更强的控制力。
这两项提议并不互相排斥,但新的 llms.txt 协议似乎更进一步。
Howard 的 llms.txt 提案是一个使用简单markdown语言的网站抓取和索引标准。
随着人工智能模型消耗和生成无限量的网络内容,内容所有者正在寻求更好地控制其数据的使用方式,或者至少寻求提供他们希望如何使用数据的背景。
由于无法超越 Google 或 Bing 惊人的高抓取能力标准,LLM 需要一种解决方案,让它们不再专注于成为庞大的抓取引擎,而是更多地关注其功能的“智能”部分,尽管这些功能可能是人工的。
理论上,llms.txt 为 LLM 提供了更好的技术资源利用。
本文将探讨:
- llms.txt 是什么。
- 它是如何工作的。
- 一些思考的方法。
- 法学硕士和内容所有者是否“买入”。
- 为什么你应该关注。
llms.txt 是什么以及它的作用
就本文而言,最好引用霍华德的提议,以帮助揭示他希望通过这项新标准实现的目标:
大型语言模型越来越依赖网站信息,但面临一个关键的限制:上下文窗口太小,无法完整处理大多数网站。将包含导航、广告和 JavaScript 的复杂 HTML 页面转换为 LLM 友好的纯文本既困难又不精确。
虽然网站既服务于人类读者,也服务于法学硕士 (LLM),但后者受益于更简洁、更专业的信息,这些信息集中在一个单一、可访问的位置。这对于开发环境等用例尤为重要,因为法学硕士 (LLM) 需要快速访问编程文档和 API。
“我们建议在网站中添加一个 /llms.txt markdown 文件,以提供 LLM 友好的内容……llms.txt markdown 不仅适合人类和 LLM 阅读,而且格式精确,允许使用固定的处理方法(即解析器和正则表达式等经典编程技术)。
该提议协议的潜在用途对于GEO效益来说相当有趣,我从 12 月就开始对其进行测试。
本质上,llms.txt 让您提供有关如何通过 AI 驱动模型访问和使用您的内容的上下文。
与控制搜索引擎爬虫如何(或应该如何)与网站交互的robots.txt 类似,llms.txt 将为抓取和处理内容以进行训练和生成响应的 AI 模型制定指导方针。
不存在真正的“屏蔽”,robots.txt 指令(例如“Disallow:”)不适用于 llms.txt 文件。如果设置正确,它更像是一种“选择”,决定哪些内容应该根据上下文或整体显示给 AI 平台。
您可以简单地放置网站某个部分的 URL,添加带有网站摘要的 URL,甚至可以在单个或多个文件中提供网站的完整原始文本。
我的一个网站上的 llms.txt 文件长 115,378 个字,文件大小为 966 KB,其中包含完整的扁平化网站文本,存储在一个 .txt 文件中,托管在域名根目录下。但您的文件可以更小,甚至可能大于此文件大小,甚至可以拆分成多个文件。您可以根据需要,将其存储在您分类法和架构的多个目录中。
您还可以为每个您认为值得 LLM 关注的网页创建 .md markdown 版本。这在进行深度网站分析时非常方便,而且不仅适用于 LLM。正如网站有多种用途一样,llms.txt 也在这方面有所改进,它提供多种可能的变体,为 LLM 提供背景信息。
生成 llms.txt 或 llms-full.txt 文件
它的简单性几乎可以说是“优雅的”,它将整个网站剥离到其纯粹的语言和文本本质,使其更容易被您最喜欢的平台解析,用于内容开发、网站结构分析、实体研究以及您能想到的任何其他用途。
它还为网站所有者提供了一种标准化的方法,可以明确允许或禁止法学硕士 (LLM) 提取和使用其内容。随着人工智能 (AI) 不断重塑数字格局,这项提案正在科技行业领袖和SEO专业人士中逐渐获得关注。它绝对有助于提升相关性,对法学硕士、网站所有者以及理论上通过这种简单的文本交互找到更好答案的用户都有好处。
Llms.txt 的功能与 robots.txt 类似,区别仅在于它会在其网站的根目录中创建一个简单的文本文件。与 robots.txt 文件标准类似,它可以被遵守,也可以不遵守,这取决于 AI/LLM 代理是否愿意遵守。但为了澄清一个常见的误解,llms.txt 文件中不包含 robots.txt 指令。
一些示例 llms.txt 文件,实际运行中
- 人类学:https://docs.anthropic.com/llms-full.txt
- 拥抱脸:https://huggingface-projects-docs-llms-txt.hf.space/accelerate/llms.txt
- 困惑:https://docs.perplexity.ai/llms-full.txt
- LLMsTxt 管理器:https://llmstxtmanager.com/llms.txt
- Zapier:https://docs.zapier.com/llms-full.txt
采用
许多不同的法学硕士(LLM)都表达了对 llms.txt 标准的支持,许多人正在使用它或探索它的实用性。llms.txt Hub整理了一份使用该标准进行文档编写的 AI 开发者名单,并声称自己是同类资源中最大的一个,可以识别这些开发者。但请记住,llms.txt 不仅适用于开发者,也适用于所有 Web 内容所有者和制作者。
网站和内容创建者也能从网站的扁平化文件中获益良多。llms.txt 文件创建完成后,即可分析完整的网站内容,无论其是否符合您的研究方法。
llms.txt 生成器工具
有了上述基本协议,现在有各种各样的工具可以帮助生成文件。我发现大多数工具可以免费生成小型网站,而大型网站则需要定制。当然,许多网站所有者会选择开发自己的工具或爬虫。需要注意的是,在使用任何生成工具之前,请务必研究其安全性,并在上传文件之前仔细检查。切勿在未事先审查安全性的情况下使用任何工具。以下是一些可供检查的免费工具(但仍需自行验证):
- Markdowner –一款免费的开源工具,可将网站内容转换为结构良好的 Markdown 文件。
- Appify – Jacob Kopecky 的 llms.txt 生成器。
- 网站 LLMs –这款 WordPress 插件可以帮您创建 llms.txt 文件。只需将抓取内容设置为“文章”、“页面”或两者兼有,即可开始使用。我是前十个下载此插件的用户之一;短短三个月内,它的下载量就已超过 3,000 次。
- FireCrawl – 最早出现的用于创建 llms.txt 文件的工具之一。
llms.txt 虽然提高了内容提取的清晰度,但也可能带来需要谨慎管理的安全风险。本文不讨论这些风险,但强烈建议在部署此文件之前对任何工具进行全面审查。
为什么 llms.txt 对 SEO 和 GEO 至关重要
控制 AI 模型与内容的交互至关重要,而拥有一个完全扁平化的网站版本就能让 AI 的提取、训练和分析变得更加简单。原因如下:
- 保护专有内容:防止 AI 未经许可使用原创内容,但仅限于选择遵守指令的 LLM。
- 品牌声誉管理:理论上,它可以让企业对其信息在人工智能生成的响应中的显示方式进行一些控制。
- 语言和内容分析:借助完全扁平化的网站版本,方便 AI 使用,您可以执行通常需要独立工具才能完成的各种分析。关键词频率、分类分析、实体分析、链接分析、竞争分析等等。
- 增强 AI 交互: llms.txt 帮助 LLM 更有效地与您的网站交互,使他们能够检索准确且相关的信息。此选项无需任何标准,只需一个干净、扁平化的完整内容文件即可。
- 提升内容可见性:通过引导人工智能系统关注特定内容,llms.txt 理论上可以“优化”你的网站,使其更容易被人工智能索引,从而提升你网站在人工智能搜索结果中的可见性。与 SEO 一样,它并不能保证一定有效。但从表面上看,LLM 对 llms.txt 的任何偏好都是一种进步。
- 更佳的 AI 性能:该文件可确保 LLM 能够访问您网站上最有价值的内容,从而在用户使用聊天机器人或 AI 搜索引擎等工具时提供更准确的 AI 响应。我使用的是 llms.txt 的“完整”渲染版本,个人认为其摘要或 URL 列表并不比 robots.txt 或 XML 站点地图更有用。
- 竞争优势:随着人工智能技术的不断发展,拥有 llms.txt 文件可以让您的网站更适应人工智能,从而获得竞争优势。
挑战与局限性
虽然 llms.txt 提供了一个有希望的解决方案,但仍然存在几个关键挑战:
- 人工智能公司的采用:并非所有人工智能公司都遵守该标准,它们会忽略该文件,并以任何方式吸收您的所有内容。
- 网站采用:简而言之,如果 llms.txt 想要成功,品牌和网站运营商必须加大参与力度。或许并非全部,但达到一定数量是必要的。在没有任何其他类型的科学“优化”来优化人工智能的情况下,我们还能失去什么呢?(我仍然认为将“优化”这样的老术语应用于生成式人工智能是错误的。这在语言上似乎有些偷懒)。
- robots.txt 与 XML 站点地图重叠:robots.txt、XML 站点地图和 llms.txt 之间可能存在冲突和不一致,可能会造成混淆。再次强调,llms.txt 文件并非旨在替代 robots.txt。如前所述,我认为文本文件的“完整”呈现方式最有价值。
- 关键字、内容和链接垃圾邮件:就像过去的 SEO 时代使用的关键字填充一样,没有什么可以阻止任何人用大量无谓的文本、关键字、链接和内容填充他们的 llms.txt。
- 将您的内容展示给竞争对手,供他们自行分析。虽然抓取是整个搜索行业的基本基石,但竞争性关键词和内容研究并不是什么新鲜事。但拥有这个简单的文件可以稍微降低门槛,让您的竞争对手轻松分析您拥有和缺乏的内容,并利用这些内容获得竞争优势。
SEO/GEO 社区中也存在其他一些反对 llms.txt 的观点。我与 Pubcon 和 WebmasterWorld 首席执行官 Brett Tabke 就 llms.txt 进行了一次留言交流。他说他认为它没什么用处:
- 我们根本不需要人们认为他们(法学硕士)和其他搜索引擎有什么不同。‘搜索引擎’和‘法学硕士’之间的界限几乎已经没有争议了。谷歌、Perplexity 和 ChatGPT 通过在 SERP 上提供人工智能响应,已经把这条界限模糊得非常模糊。唯一的区别在于,谷歌是一个带有法学硕士的搜索引擎,而 ChatGPT 是一个带有搜索引擎的法学硕士。展望未来,谷歌显然会将其法学硕士直接与搜索引擎的代码库合并,从而消除两者之间的任何界限。LLMs.txt 只是混淆了这一事实。
Tabke 补充道,XML 站点地图和 robots.txt 已经达到了这个目的。
关于这一点,我完全同意。但对我来说,潜在的价值主要在于这个文件的“完整”文本渲染版本。
营销人员 David Ogletree 也有类似的保留意见:
- “如果说有什么底线的话,那就是我真的不希望人们继续认为法学硕士和谷歌学位有区别。对我来说,它们是一回事,应该一视同仁。”
llms.txt 和 AI 内容治理的未来
随着人工智能的应用不断增长,对结构化内容治理的需求也在不断增长。
llms.txt 代表了为提高 AI 内容使用透明度和控制力而做出的早期努力。它能否成为一项广泛接受的标准,取决于行业支持、网站所有者的支持、监管发展以及 AI 公司的遵守意愿。
您应该随时了解 llms.txt 并准备随着人工智能驱动的搜索和内容发现的发展调整其内容策略。
llms.txt 的推出标志着在平衡人工智能创新与内容所有权以及网站供法学硕士消费和分析的“可爬行性和可索引性”方面迈出了重要一步。
您应该积极探索其实施方式以保护您的数字资产,并为 LLM 提供一个更好地了解您网站的结构和内容的平台。
随着人工智能不断重塑在线搜索和内容分发,制定明确的人工智能与您的网站互动策略将至关重要。
llms.txt 可以为 GEO 创造一点科学
GEO 和 SEO 类似,几乎没有任何科学标准可供网站创建者参考。换句话说,没有基于特定策略的可验证的最佳平台实践。
任何包含大写字母“O”(优化)的热门缩写词都是黑箱工程。或者,正如我合作过的另一位技术开发高管所说的那样,它被称为“巫术”、“炼金术”或“数字萨满教”。
例如:
- 当谷歌说“为用户创造精彩的内容,然后你就会在搜索中取得成功”时,这对你来说是一个艺术项目。
- 当谷歌说“我们将 XML 站点地图作为我们爬虫旅程的一部分,并且在 Google Search Console 中有一个地方”时,这有点科学。
- schema.org 、robots.txt 甚至 IndexNow也是如此。这些都是“约定俗成的”标准,搜索引擎会明确地告诉我们:“我们会考虑这些协议,但这是我们自己的判断。”
在这个充满不确定性的世界里,对于如何提高人工智能和法学硕士 (LLM) 的表现,llms.txt 听起来是一个很好的开始。
如果您拥有广泛的内容受众,那么现在就启动 llms.txt 文件或许是个好兆头。您永远不知道哪个专业或专业的法学硕士 (LLM) 会将您的内容用于新的用途。在这个时代,搜索者需要做出的多重决策正逐渐被杂乱的结果页面所取代,而法学硕士 (LLM) 正是答案。
如果您想赢,那么您会希望您的内容成为那个答案,因为它可能值得大量搜索引擎搜索。
几个月前,我开始在自己的网站上实施 llms.txt,现在也正在所有客户的网站上实施。这样做没有坏处。任何可能有助于“优化”我的内容的事情都应该去做,尤其是作为一项潜在的公认标准。
所有法学硕士都在用它吗?它肯定还没达到临界规模,但有些人表示对此感兴趣。
llms.txt 文件是否也能帮助你更好地访问和抓取你自己的网站,用于各种 AI 用途?当然可以。
我发现它的主要用途之一是以各种方式分析客户网站。将整个网站内容保存在一个文件中,可以进行不同类型的分析,而这些分析以前并不容易实现。
它会成为标准吗?
这当然还有待观察。llms.txt 还有很长的路要走,但我不会打赌它不会成功。
当公司正在寻找新想法来提高其作为法学硕士“答案”的地位时,它为人工智能优化提供了一个新的信号,并且可能以一种以前只能与搜索引擎相媲美的方式与法学硕士进行连接,从而领先一步。
如果您在近期听到更多 SEO/GEO 从业者谈论 llms.txt,将其作为网站优化的基本要素,与 robots.txt、XML 站点地图、schema、IndexNow 等一起,请不要感到惊讶。