The Cloudflare Blog ·

通过Cloudflare管理的robots.txt和对盈利内容的阻止，控制AI训练中的内容使用

💡 原文英文，约3300词，阅读约需12分钟。

📝

内容提要

Cloudflare为网站所有者提供了两种新工具，以控制AI爬虫对其内容的访问，用户可以选择让Cloudflare管理robots.txt文件，或仅在广告部分阻止AI爬虫。这些措施旨在保护内容创作者的权益，防止其内容被用于AI模型训练。

🎯

关键要点

Cloudflare为网站所有者提供了两种新工具，以控制AI爬虫对其内容的访问。
用户可以选择让Cloudflare管理robots.txt文件，或仅在广告部分阻止AI爬虫。
新一代AI爬虫与传统搜索爬虫的关系不再是互惠的。
AI训练爬虫使用网站数据直接为其客户提供服务，通常不会带回流量。
大多数网站没有使用robots.txt文件，只有约37%的前10,000个域名拥有该文件。
Cloudflare在2024年推出了一键阻止所有AI爬虫的功能，已有超过100万客户启用。
Cloudflare的新管理robots.txt功能可以自动更新网站的robots.txt文件，保护内容创作者的权益。
网站所有者可以选择仅在显示广告的页面上阻止AI爬虫。
Cloudflare通过分析客户流量来识别和分类AI爬虫，帮助网站所有者管理爬虫活动。
Cloudflare的管理robots.txt功能将自动更新，以适应不断变化的AI爬虫环境。

🔎

延伸解读

AI爬虫与传统爬虫的区别

新一代AI爬虫与传统搜索爬虫的关系已不再是互惠的。AI爬虫主要用于收集数据以训练模型，通常不会为网站带来流量。这种变化使得网站所有者需要重新考虑如何管理爬虫访问，以保护自己的内容和收益。

robots.txt的使用现状

尽管robots.txt文件是管理爬虫访问的重要工具，但目前只有约37%的前10,000个域名拥有该文件。这表明许多网站所有者尚未充分利用这一工具来保护自己的内容，可能导致其内容被AI爬虫随意抓取。

Cloudflare的管理工具优势

Cloudflare推出的管理robots.txt功能可以自动更新，帮助网站所有者轻松控制AI爬虫的访问。这一功能特别适合那些没有时间或技术能力手动维护robots.txt文件的网站，确保其内容不被用于AI训练。

广告页面的特殊处理

Cloudflare的新功能允许网站所有者选择仅在显示广告的页面上阻止AI爬虫。这为希望在保护内容的同时仍能吸引流量的网站提供了灵活性，帮助他们在商业利益与内容保护之间找到平衡。

❓

延伸问答

Cloudflare提供了哪些工具来控制AI爬虫的访问？

Cloudflare提供了两种工具：一是管理robots.txt文件，二是仅在广告部分阻止AI爬虫。

为什么网站所有者需要管理AI爬虫的访问？

网站所有者需要管理AI爬虫以保护内容创作者的权益，防止内容被用于AI模型训练而不获益。

Cloudflare的robots.txt管理功能如何工作？

Cloudflare的robots.txt管理功能会自动更新网站的robots.txt文件，以指示AI爬虫不使用网站内容进行训练。

AI爬虫与传统搜索爬虫有什么不同？

AI爬虫与传统搜索爬虫的关系不再是互惠的，AI爬虫通常不会带回流量，而是直接为其客户提供服务。

如何启用Cloudflare的AI爬虫阻止功能？

用户可以在Cloudflare仪表板的安全设置中选择启用阻止AI爬虫的功能。

Cloudflare如何识别和分类AI爬虫？

Cloudflare通过分析客户流量和用户提交的报告来识别和分类AI爬虫。

🏷️