The Cloudflare Blog ·

从Googlebot到GPTBot：2025年谁在爬取您的网站

💡 原文英文，约2800词，阅读约需10分钟。

📝

内容提要

网络爬虫自1993年起存在，随着AI的发展，其角色变得复杂。爬虫分为“好”与“坏”，约30%的网络流量来自爬虫。AI爬虫如GPTBot迅速崛起，数据收集用于训练AI模型，带来内容权利和隐私问题。网站通过robots.txt管理爬虫访问，AI爬虫的使用日益增加，影响网络内容获取方式。

🎯

🔎

网络爬虫分为“好”与“坏”，其中约30%的网络流量来自爬虫。随着AI爬虫的崛起，网站内容的获取方式发生了变化。网站所有者需关注爬虫的类型，以便采取适当的管理措施，确保内容的合法使用和保护。

虽然网站可以通过robots.txt文件管理爬虫访问，但其效果并不总是理想。许多AI爬虫可能不遵循这些规则，导致网站内容被未经授权地抓取。网站所有者应考虑使用更积极的保护措施，如Web应用防火墙，以增强安全性。

GPTBot等AI爬虫在短时间内迅速增长，反映出对数据的强烈需求。这一趋势可能会影响内容创作者的收益和隐私权，网站所有者需密切关注AI爬虫的使用情况，以便及时调整策略。

❓

网络爬虫的主要作用是索引互联网内容，以便在搜索引擎结果中显示相关网站。

AI爬虫主要用于收集数据以训练AI模型，而传统爬虫则主要用于索引网站内容。

GPTBot在2025年的市场份额从5%上升至30%。

网站可以通过robots.txt文件管理爬虫的访问，设置允许或禁止特定爬虫的规则。

AI爬虫的使用引发了内容权利和隐私问题，可能导致未经授权的数据使用。

Googlebot在2025年增长了96%，巩固了其市场主导地位。

🏷️