OpenAI转录了超过一百万小时的YouTube视频以训练GPT-4

OpenAI转录了超过一百万小时的YouTube视频以训练GPT-4

💡 原文英文,约600词,阅读约需3分钟。
📝

内容提要

AI公司在寻找高质量的训练数据方面遇到困难,导致它们不得不采取可疑的做法。OpenAI为了训练其语言模型GPT-4,转录了超过一百万小时的YouTube视频,尽管知道这在法律上是有问题的。Google也从YouTube获取了转录,但这两家公司都面临法律和技术限制。Meta考虑支付书籍许可费或购买出版商以获取训练数据。AI训练领域正面临数据短缺的问题,公司可能在2028年之前超过新内容。

🎯

关键要点

  • AI公司在获取高质量训练数据方面遇到困难,导致采取可疑做法。
  • OpenAI为训练GPT-4转录了超过一百万小时的YouTube视频,尽管知道这在法律上有问题。
  • OpenAI的发言人表示,公司使用多种来源的数据,并考虑生成自己的合成数据。
  • OpenAI在2021年耗尽了有用数据,开始转录YouTube视频、播客和有声书。
  • Google表示其条款禁止未经授权抓取YouTube内容,并采取技术和法律措施防止此类行为。
  • Google也从YouTube获取了转录,声称遵循与创作者的协议。
  • Meta在寻找训练数据时也面临限制,考虑支付书籍许可费或购买大型出版商。
  • AI训练领域面临数据短缺问题,预计到2028年可能超过新内容。

延伸问答

OpenAI为什么转录YouTube视频?

OpenAI转录YouTube视频是为了获取高质量的训练数据,以训练其语言模型GPT-4。

OpenAI在获取训练数据时面临哪些法律问题?

OpenAI知道转录YouTube视频在法律上是有问题的,但认为这是合理使用。

Google如何处理YouTube内容的转录?

Google表示其条款禁止未经授权抓取YouTube内容,并采取技术和法律措施防止此类行为。

Meta在寻找训练数据时遇到了什么限制?

Meta在寻找训练数据时面临版权限制,考虑支付书籍许可费或购买大型出版商。

AI训练领域目前面临什么样的数据短缺问题?

AI训练领域面临数据短缺问题,预计到2028年可能会超过新内容的产生。

OpenAI是如何收集训练数据的?

OpenAI通过多种来源收集数据,包括公开数据和与非公开数据的合作,并考虑生成合成数据。

➡️

继续阅读