人工智能爬虫与传统搜索机器人有何不同

suchona.kani.z · Post by **suchona.kani.z** » Sun Jun 15, 2025 5:10 am

像Googlebot或Bingbot这样的传统机器人会以有序且遵守规则的方式抓取网站。它们会将您的内容编入索引以显示在搜索结果中，并且通常会限制请求，以避免服务器过载。

正如我们之前指出的，AI爬虫更具攻击性。它们：

短时间内请求大量页面
忽略抓取延迟或带宽节省指南
提取整页文本，有时尝试跟踪动态链接或脚本
大规模操作，通常在单个爬网周期内扫描数千个网站
一位 Reddit 用户报告称，仅 GPTBot一个月就消耗了他们网站上 30TB 的带宽数据，而网站所有者却没有获得任何明显的商业利益。

AI 机器人流量的带宽使用情况
图片来源：Reddit 用户，Isocrates Noviomagi

此类事件正变得越来越普遍，尤其是在博客、文档页面新加坡 whatsapp 号码数据库或论坛等具有丰富文本内容的网站中。

如果您的带宽使用量增加，但人流量却没有增加，那么人工智能爬虫可能是罪魁祸首。

为什么共享主机环境如此困难
当你使用共享服务器时，你的网站性能不仅会受到访客的影响，还会受到服务器上其他用户流量的影响。最近，这些用户都在处理悄无声息的“虚假”流量激增，这些流量会吞噬 CPU、内存，并在后台增加你的带宽费用。