使用 Robots.txt 和 LLMS.txt 控制 AI 爬虫

suchona.kani.z · Post by **suchona.kani.z** » Sun Jun 15, 2025 5:12 am

专用服务器不仅能解决症状问题，还能消除根本原因。对于需要盈利或处理敏感互动的网站来说，它提供的稳定性和控制力通常几个月内就能收回成本。

如果您的网站遇到意外的减速或资源耗尽，限制机器人访问可能是恢复稳定性的最有效方法之一，同时又不会影响您的用户体验。

Robots.txt 仍然重要
现在，OpenAI 和 Anthropic 等主流提供商的大多数 AI 爬虫都遵守robots.txt 指令。通过在此文件中设置明确的禁止规则，您可以指示兼容的机器人不要抓取您的网站。

这是一种轻量级的方法，无需安装防火墙或编写自定韩国 whatsapp 号码数据库义脚本即可减少不必要的流量。许多公司已经使用它来管理 SEO 爬虫，因此将其扩展到 AI 机器人也是理所当然的。

截至 2024 年 8 月，全球排名前 1000 的网站中，超过35%已使用 robots.txt 屏蔽了 GPTBot。这表明网站所有者正在重新掌控其内容的访问方式。

阻止爬虫的前 1000 个网站的图表。
图片来源：PPC LAND

新挑战的新文件：LLMS.txt
除了 robots.txt 之外，一个名为llms.txt的新标准也开始受到关注。虽然仍处于早期采用阶段，但它为网站所有者提供了另一种选择，可以定义其内容如何（或是否）用于大型语言模型训练。

与专注于抓取行为的 robots.txt 不同，llms.txt 有助于明确与 AI 数据使用相关的权限。随着 AI 开发与网络出版的交织日益紧密，这是一个微妙但重要的转变。

同时使用这两个文件可以为您提供更全面的工具包来管理爬虫流量，尤其是在新机器人出现和训练模型不断发展的情况下。