17 万本盗版书,是「ChatGPT 们」变聪明的秘密

17 万本盗版书,是「ChatGPT 们」变聪明的秘密

💡 原文中文,约4200字,阅读约需10分钟。
📝

内容提要

OpenAI和Meta被起诉未经授权使用作家的书籍训练模型。17万本盗版图书被用作Meta的训练素材。纽约时报考虑起诉OpenAI,可能命令销毁ChatGPT的数据集。AI公司的侵权问题成为AI发展的关键因素之一。

🎯

关键要点

  • OpenAI和Meta被起诉,未经授权使用作家的书籍训练模型。
  • 原告提供证据,表明ChatGPT能总结出他们书的内容。
  • Meta的LLaMA模型使用了包含盗版书籍的训练数据集。
  • 作家Alex Reisner揭露了Meta模型背后的盗版书籍来源。
  • Reisner通过程序提取了Books3数据集中的书籍信息,识别出17万本书。
  • Books3数据集中包含了多位著名作家的作品,证实了Meta的侵权行为。
  • Books3的创造者希望提供开放的训练数据,反对大公司的垄断。
  • 《纽约时报》考虑起诉OpenAI,可能导致其数据集被销毁。
  • 法律争议的关键在于AI公司是否能证明其使用是合理的。
  • 版权问题将是决定AI未来发展的关键因素之一。
➡️

继续阅读