InfoQ ·

Cloudflare推出代理Markdown和内容信号以引导AI爬虫

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

Cloudflare推出“代理的Markdown”功能，允许AI爬虫请求网页的Markdown版本，并提出“内容信号”机制，让出版商声明内容是否可用于AI训练。这一举措引发了关于网络是否应为AI代理重构的争论。Cloudflare认为Markdown比HTML更高效，许多出版商开始限制AI爬虫的访问，随着更多出版商探索付费模式，关于同意、补偿和技术适应的讨论将加剧。

🎯

关键要点

Cloudflare推出'代理的Markdown'功能，允许AI爬虫请求网页的Markdown版本。
该功能配合'内容信号'机制，允许出版商声明内容是否可用于AI训练、搜索索引或推理。
Cloudflare认为Markdown比HTML更高效，能减少AI处理所需的token数量。
出版商可以在robots.txt中插入信号，控制内容的使用权限。
Cloudflare的信号仅为偏好，不具强制性，默认情况下允许AI训练和搜索。
一些出版商已开始限制AI爬虫的访问，探索付费模式以实现内容的货币化。
关于同意、补偿和技术适应的讨论将随着出版商的不同策略而加剧。
Medium等出版商已采取措施阻止AI训练，认为AI公司在未经同意的情况下使用内容。
Cloudflare实验了按爬取付费的模式，允许出版商对特定爬虫收费或阻止访问。
Markdown-for-Agents是否成为广泛采用的标准取决于AI平台的反应和出版商的需求。

🔎

延伸解读

Markdown与HTML的效率对比

Cloudflare认为Markdown格式比HTML更高效，能显著减少AI处理所需的token数量。这一观点引发了对网页设计是否应为AI代理重构的讨论。出版商在选择内容格式时，需考虑到AI的处理效率与用户体验之间的平衡。

内容信号的实施与挑战

Cloudflare推出的内容信号机制允许出版商控制内容的使用权限，但这些信号并非强制执行。出版商需关注这一机制的实际效果，尤其是在AI爬虫的访问和内容货币化方面，可能会面临技术适应和法律合规的挑战。

出版商的策略分歧

不同出版商对AI爬虫的态度各异，部分如Medium已采取措施阻止AI训练，认为未获同意的使用是不公正的。这种策略的分歧可能导致行业内的竞争格局变化，出版商需谨慎评估自身的立场与市场需求。

❓

延伸问答

Cloudflare的'代理的Markdown'功能有什么用途？

该功能允许AI爬虫请求网页的Markdown版本，从而提高处理效率。

什么是内容信号机制，它如何影响出版商？

内容信号机制允许出版商声明其内容是否可用于AI训练、搜索索引或推理，从而控制内容的使用权限。

Cloudflare认为Markdown相比HTML有什么优势？

Cloudflare认为Markdown比HTML更高效，能减少AI处理所需的token数量。

出版商如何在robots.txt中使用内容信号？

出版商可以在robots.txt中插入信号，声明内容是否可被索引、用于AI输入或训练。

一些出版商对AI爬虫采取了什么措施？

一些出版商开始限制AI爬虫的访问，探索付费模式以实现内容的货币化。

Cloudflare的付费爬取模式是怎样的？

Cloudflare实验了按爬取付费的模式，允许出版商对特定爬虫收费或阻止访问。

🏷️