Anthropic「蒸馏」了人类最大的知识库

Anthropic「蒸馏」了人类最大的知识库

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

美国AI公司Anthropic启动“巴拿马项目”,将新书切割、扫描后销毁以获取高质量数据训练模型。尽管公司声称未用于正式模型,但其行为引发版权争议,最终以15亿美元和解,未承认违法。这一事件反映了AI对创作者权益的冲击。

🎯

关键要点

  • Anthropic启动了名为“巴拿马项目”的计划,目的是切割、扫描并销毁书籍以获取高质量数据用于训练AI模型。
  • 该公司声称未将这些数据用于正式模型,但其行为引发了版权争议,最终以15亿美元和解,未承认违法。
  • AI公司对高质量数据的渴求导致了对纸质书的粗暴处理,Anthropic认为书籍的内容比网络文本更具价值。
  • Anthropic曾尝试通过下载盗版书籍获取数据,显示出其对版权问题的漠视。
  • 公司聘请了曾参与谷歌图书项目的Tom Turvey来主持“巴拿马项目”,显示出其对版权争议的熟悉。
  • Anthropic主要依赖二手书零售商进行书籍采购,扫描过程如同工业流水线。
  • 法院裁定AI训练属于合理使用,Anthropic支付的和解金相对较低,未承认任何违法行为。
  • 这一事件引发了创作者对出版商和AI公司的不满,认为赔偿标准远低于法律上限。
  • AI的快速发展和低成本内容生成对传统写作造成了冲击,创作者的生存空间被挤压。
  • AI提取语言规律的逻辑被质疑,认为其规模化处理与人类阅读的性质不同,未能合理对待版权问题。

延伸问答

Anthropic的“巴拿马项目”具体做了什么?

Anthropic的“巴拿马项目”涉及切割、扫描并销毁书籍,以获取高质量数据用于训练AI模型。

为什么Anthropic选择通过销毁书籍来获取数据?

Anthropic认为书籍的内容比网络文本更具价值,且通过授权获取数据成本高、耗时长。

Anthropic在版权争议中是如何处理的?

Anthropic最终以15亿美元和解,但未承认任何违法行为,法院裁定其训练行为属于合理使用。

这一事件对创作者有什么影响?

创作者对出版商和AI公司的不满加剧,认为赔偿标准远低于法律上限,生存空间被挤压。

Anthropic如何获取书籍用于“巴拿马项目”?

Anthropic主要依赖二手书零售商进行书籍采购,并通过工业化流程进行扫描。

AI训练与人类阅读有什么不同?

AI可以在短时间内消化大量书籍并低成本复制输出,而人类阅读则是逐本进行,无法实现同样的规模。

➡️

继续阅读