蓝点网 ·

[开源项目] 收集各种AI爬虫名称并将其屏蔽避免AI抓取你的数据训练模型

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

该项目收集了各大公司的AI爬虫名称，建议网站管理员屏蔽这些爬虫以保护网站内容，减少服务器压力，且不影响网站正常运行。尽管允许爬虫抓取有助于AI发展，但大多数大型出版商选择不允许。

🎯

🔎

随着AI技术的发展，越来越多的爬虫被用于抓取网站数据进行模型训练。网站管理员应考虑屏蔽这些爬虫，以保护网站内容和减少服务器负担。虽然允许爬虫抓取有助于AI进步，但大多数大型出版商选择不允许，这表明屏蔽的必要性。

虽然robots.txt文件是网站与爬虫之间的协议，但并非所有爬虫都会遵守。部分爬虫可能会无视该协议，继续抓取内容。因此，仅依靠robots.txt来保护网站内容是不够的，建议在服务器层面直接屏蔽爬虫，以确保更有效的防护。

网站管理员在屏蔽爬虫时，可以根据流量来源和业务需求进行选择性屏蔽。例如，某些爬虫可能对网站流量有积极影响，而另一些则可能造成负担。管理员应仔细评估每个爬虫的影响，做出合理的屏蔽决策。

❓

网站管理员应该屏蔽AI爬虫，因为这些爬虫主要用于抓取网站内容进行AI训练，几乎不会带来流量或正面反馈，屏蔽可以减少服务器压力。

可以在服务器中将爬虫名称加入黑名单，或使用robots.txt文件进行屏蔽，但直接在服务器上屏蔽更有效。

屏蔽AI爬虫不会影响网站的正常运行，且可以继续获取来自主要搜索引擎的流量。

AI爬虫通常伪装成用户的UserAgent进行抓取，以避免被识别。

robots.txt文件用于告知爬虫哪些内容可以抓取，但部分爬虫可能不遵守该协议。

已知的AI爬虫包括AI2Bot、Amazonbot、ChatGPT-User等，网站管理员可以选择屏蔽这些爬虫。

🏷️