Cloudflare推出代理Markdown和内容信号以引导AI爬虫

Cloudflare推出代理Markdown和内容信号以引导AI爬虫

💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

Cloudflare推出“代理的Markdown”功能,允许AI爬虫请求网页的Markdown版本,并提出“内容信号”机制,让出版商声明内容是否可用于AI训练。这一举措引发了关于网络是否应为AI代理重构的争论。Cloudflare认为Markdown比HTML更高效,许多出版商开始限制AI爬虫的访问,随着更多出版商探索付费模式,关于同意、补偿和技术适应的讨论将加剧。

🎯

关键要点

  • Cloudflare推出'代理的Markdown'功能,允许AI爬虫请求网页的Markdown版本。

  • 该功能配合'内容信号'机制,允许出版商声明内容是否可用于AI训练、搜索索引或推理。

  • Cloudflare认为Markdown比HTML更高效,能减少AI处理所需的token数量。

  • 出版商可以在robots.txt中插入信号,控制内容的使用权限。

  • Cloudflare的信号仅为偏好,不具强制性,默认情况下允许AI训练和搜索。

  • 一些出版商已开始限制AI爬虫的访问,探索付费模式以实现内容的货币化。

  • 关于同意、补偿和技术适应的讨论将随着出版商的不同策略而加剧。

  • Medium等出版商已采取措施阻止AI训练,认为AI公司在未经同意的情况下使用内容。

  • Cloudflare实验了按爬取付费的模式,允许出版商对特定爬虫收费或阻止访问。

  • Markdown-for-Agents是否成为广泛采用的标准取决于AI平台的反应和出版商的需求。

延伸问答

Cloudflare的'代理的Markdown'功能有什么用途?

该功能允许AI爬虫请求网页的Markdown版本,从而提高处理效率。

什么是内容信号机制,它如何影响出版商?

内容信号机制允许出版商声明其内容是否可用于AI训练、搜索索引或推理,从而控制内容的使用权限。

Cloudflare认为Markdown相比HTML有什么优势?

Cloudflare认为Markdown比HTML更高效,能减少AI处理所需的token数量。

出版商如何在robots.txt中使用内容信号?

出版商可以在robots.txt中插入信号,声明内容是否可被索引、用于AI输入或训练。

一些出版商为何开始限制AI爬虫的访问?

一些出版商认为AI公司在未经同意的情况下使用内容,因此开始限制AI爬虫的访问,探索付费模式。

Cloudflare的付费爬取模式是如何运作的?

Cloudflare实验了按爬取付费的模式,允许出版商对特定爬虫收费或阻止访问。

➡️

继续阅读