Vercel News ·

AI爬虫的崛起

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

研究表明，AI爬虫数量迅速增长，OpenAI的GPTBot和Anthropic的Claude分别生成了5.69亿和3.7亿请求，但仍未达到Googlebot的规模。AI爬虫在处理JavaScript和内容优先级方面面临挑战，且高404错误率显示URL管理需改进。建议进行服务器端渲染以提升关键内容的可见性。

🎯

关键要点

AI爬虫数量迅速增长，OpenAI的GPTBot生成了5.69亿请求，Anthropic的Claude生成了3.7亿请求，但仍未达到Googlebot的规模。
AI爬虫在处理JavaScript和内容优先级方面面临挑战，且高404错误率显示URL管理需改进。
AI爬虫主要集中在美国数据中心，且在JavaScript渲染能力上存在明显差异，主要爬虫均未能执行JavaScript。
ChatGPT和Claude在抓取内容时，HTML和图像内容的优先级较高，但对404页面的请求比例也很高。
建议进行服务器端渲染以提升关键内容的可见性，确保重要信息对所有爬虫可访问。
高404错误率强调了有效的URL管理的重要性，包括保持重定向、更新网站地图和使用一致的URL模式。
使用robots.txt文件控制爬虫访问，设置特定规则以限制对敏感或非必要内容的访问。
AI爬虫的行为与传统搜索引擎显著不同，遵循网络开发最佳实践仍然至关重要。

🔎

延伸解读

AI爬虫的增长与挑战

AI爬虫的数量迅速增加，尽管其请求量已达到相当规模，但仍未能与Googlebot相提并论。AI爬虫在处理JavaScript和内容优先级方面存在明显挑战，尤其是高达34%的请求指向404页面，这表明其在URL管理上亟需改进。

服务器端渲染的重要性

由于ChatGPT和Claude等AI爬虫无法执行JavaScript，确保关键内容的服务器端渲染显得尤为重要。这样可以保证重要信息对所有爬虫可见，避免因爬虫无法访问而导致的信息缺失。

URL管理的风险

高404错误率反映出AI爬虫在URL选择和验证过程中的不足。网站管理员应定期更新网站地图，保持重定向的有效性，以减少无效请求，确保爬虫能够顺利抓取有效内容。

与传统搜索引擎的比较

AI爬虫的行为与传统搜索引擎显著不同，尤其是在内容抓取的优先级和效率上。传统搜索引擎如Googlebot在优化爬虫行为方面已相对成熟，而AI爬虫仍在不断演进，需关注其抓取策略的改进。

❓

延伸问答

AI爬虫的请求量与Googlebot相比如何？

AI爬虫的请求量虽然迅速增长，但仍未达到Googlebot的规模，GPTBot和Claude的请求量分别为5.69亿和3.7亿，而Googlebot为4.5亿。

AI爬虫在处理JavaScript时面临哪些挑战？

AI爬虫在处理JavaScript时无法执行脚本，导致无法读取客户端渲染的内容。

如何提高AI爬虫对关键内容的可见性？

建议进行服务器端渲染，以确保重要信息对所有爬虫可访问。

AI爬虫的404错误率高的原因是什么？

高404错误率表明AI爬虫在URL管理上存在问题，常常尝试访问过时的资源。

AI爬虫与传统搜索引擎的行为有何不同？

AI爬虫的行为与传统搜索引擎显著不同，特别是在内容优先级和爬取效率方面。

如何使用robots.txt文件控制爬虫访问？

可以通过在robots.txt文件中设置特定规则，限制AI爬虫对敏感或非必要内容的访问。

🏷️