💡
原文英文,约600词,阅读约需3分钟。
📝
内容提要
AI公司在寻找高质量的训练数据方面遇到困难,导致它们不得不采取可疑的做法。OpenAI为了训练其语言模型GPT-4,转录了超过一百万小时的YouTube视频,尽管知道这在法律上是有问题的。Google也从YouTube获取了转录,但这两家公司都面临法律和技术限制。Meta考虑支付书籍许可费或购买出版商以获取训练数据。AI训练领域正面临数据短缺的问题,公司可能在2028年之前超过新内容。
🎯
关键要点
- AI公司在获取高质量训练数据方面遇到困难,导致采取可疑做法。
- OpenAI为训练GPT-4转录了超过一百万小时的YouTube视频,尽管知道这在法律上有问题。
- OpenAI的发言人表示,公司使用多种来源的数据,并考虑生成自己的合成数据。
- OpenAI在2021年耗尽了有用数据,开始转录YouTube视频、播客和有声书。
- Google表示其条款禁止未经授权抓取YouTube内容,并采取技术和法律措施防止此类行为。
- Google也从YouTube获取了转录,声称遵循与创作者的协议。
- Meta在寻找训练数据时也面临限制,考虑支付书籍许可费或购买大型出版商。
- AI训练领域面临数据短缺问题,预计到2028年可能超过新内容。
❓
延伸问答
OpenAI为什么转录YouTube视频?
OpenAI转录YouTube视频是为了获取高质量的训练数据,以训练其语言模型GPT-4。
OpenAI在获取训练数据时面临哪些法律问题?
OpenAI知道转录YouTube视频在法律上是有问题的,但认为这是合理使用。
Google如何处理YouTube内容的转录?
Google表示其条款禁止未经授权抓取YouTube内容,并采取技术和法律措施防止此类行为。
Meta在寻找训练数据时遇到了什么限制?
Meta在寻找训练数据时面临版权限制,考虑支付书籍许可费或购买大型出版商。
AI训练领域目前面临什么样的数据短缺问题?
AI训练领域面临数据短缺问题,预计到2028年可能会超过新内容的产生。
OpenAI是如何收集训练数据的?
OpenAI通过多种来源收集数据,包括公开数据和与非公开数据的合作,并考虑生成合成数据。
➡️