OpenAI转录了超过一百万小时的YouTube视频以训练GPT-4

OpenAI转录了超过一百万小时的YouTube视频以训练GPT-4

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

AI公司在寻找高质量的训练数据方面遇到困难,导致它们不得不采取可疑的做法。OpenAI为了训练其语言模型GPT-4,转录了超过一百万小时的YouTube视频,尽管知道这在法律上是有问题的。Google也从YouTube获取了转录,但这两家公司都面临法律和技术限制。Meta考虑支付书籍许可费或购买出版商以获取训练数据。AI训练领域正面临数据短缺的问题,公司可能在2028年之前超过新内容。

🎯

关键要点

  • AI公司在获取高质量训练数据方面遇到困难,导致采取可疑做法。
  • OpenAI为训练GPT-4转录了超过一百万小时的YouTube视频,尽管知道这在法律上有问题。
  • OpenAI的发言人表示,公司使用多种来源的数据,并考虑生成自己的合成数据。
  • OpenAI在2021年耗尽了有用数据,开始转录YouTube视频、播客和有声书。
  • Google表示其条款禁止未经授权抓取YouTube内容,并采取技术和法律措施防止此类行为。
  • Google也从YouTube获取了转录,声称遵循与创作者的协议。
  • Meta在寻找训练数据时也面临限制,考虑支付书籍许可费或购买大型出版商。
  • AI训练领域面临数据短缺问题,预计到2028年可能超过新内容。
➡️

继续阅读