像 GPTBot 和 ClaudeBot 这样的 AI 爬虫会造成网站流量激增,造成网站不堪重负——一位用户报告称,一个月内消耗了 30TB 的带宽。这些爬虫会给共享主机环境带来压力,导致网站速度变慢,损害 SEO 和用户体验。与传统的搜索爬虫不同,AI 爬虫会在短时间内请求大量页面,而不遵循带宽节省准则。专用服务器通过速率限制、IP 过滤和自定义缓存提供必要的控制,保护您的网站性能免受这种日益增长的趋势的影响。
不,你没有想象这些事情。
并发现了像 GPTBot 或 ClaudeBot 这样的奇怪的用户代理,那么您就会看到新一波访问者的影响:AI 和 LLM 爬虫。
这些机器人是人工智能公司大规模训练和完善其大型语言模型的一部分。与系统性地索引内容的传统搜索引擎爬虫不同,人工智能爬虫的操作更加……积极。
客观来看,OpenAI 的 GPTBot 在 Vercel 网络上一个月内 塞内加尔 whatsapp 号码数据库 就产生了 5.69 亿个请求。对于使用共享主机方案的网站来说,这种自动流量可能会带来严重的性能问题。
本文解答了托管和系统管理员论坛中出现的首要问题:“为什么我的网站在没有更多实际用户的情况下突然变慢或占用如此多的带宽?”您还将了解如何通过切换到专用服务器来重新获得所需的控制、稳定性和速度。
了解 AI 和 LLM 爬虫及其影响
什么是AI爬虫?
AI 爬虫,也称为 LLM 爬虫,是一种自动化机器人,旨在从网站提取大量内容以提供给人工智能系统。
这些爬虫由大型科技公司和致力于生成式人工智能工具的研究团队运营。最活跃、最知名的人工智能爬虫包括:
GPTBot(OpenAI)
ClaudeBot(人类学)
PerplexityBot(Perplexity AI)
Google 扩展 (Google)
亚马逊机器人(亚马逊)
CCBot(常见爬虫)
Yeti(Naver 的 AI 爬虫)
Bytespider(字节跳动,TikTok 的母公司)
随着越来越多的公司进入LLM领域,新的爬虫程序层出不穷。这种快速增长催生了一种新的流量类别,其行为方式与传统的网络机器人不同。