Anthropic「蒸馏」了人类最大的知识库

Anthropic「蒸馏」了人类最大的知识库

💡 原文中文,约3500字,阅读约需9分钟。
📝

内容提要

美国AI公司Anthropic启动“巴拿马项目”,将新书切割、扫描后销毁以获取高质量数据训练模型。尽管公司声称未用于正式模型,但其行为引发版权争议,最终以15亿美元和解,未承认违法。这一事件反映了AI对创作者权益的冲击。

🎯

关键要点

  • Anthropic启动了名为“巴拿马项目”的计划,目的是切割、扫描并销毁书籍以获取高质量数据用于训练AI模型。
  • 该公司声称未将这些数据用于正式模型,但其行为引发了版权争议,最终以15亿美元和解,未承认违法。
  • AI公司对高质量数据的渴求导致了对纸质书的粗暴处理,Anthropic认为书籍的内容比网络文本更具价值。
  • Anthropic曾尝试通过下载盗版书籍获取数据,显示出其对版权问题的漠视。
  • 公司聘请了曾参与谷歌图书项目的Tom Turvey来主持“巴拿马项目”,显示出其对版权争议的熟悉。
  • Anthropic主要依赖二手书零售商进行书籍采购,扫描过程如同工业流水线。
  • 法院裁定AI训练属于合理使用,Anthropic支付的和解金相对较低,未承认任何违法行为。
  • 这一事件引发了创作者对出版商和AI公司的不满,认为赔偿标准远低于法律上限。
  • AI的快速发展和低成本内容生成对传统写作造成了冲击,创作者的生存空间被挤压。
  • AI提取语言规律的逻辑被质疑,认为其规模化处理与人类阅读的性质不同,未能合理对待版权问题。
➡️

继续阅读