The Verge ·

OpenAI转录了超过一百万小时的YouTube视频以训练GPT-4

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

AI公司在寻找高质量的训练数据方面遇到困难，导致它们不得不采取可疑的做法。OpenAI为了训练其语言模型GPT-4，转录了超过一百万小时的YouTube视频，尽管知道这在法律上是有问题的。Google也从YouTube获取了转录，但这两家公司都面临法律和技术限制。Meta考虑支付书籍许可费或购买出版商以获取训练数据。AI训练领域正面临数据短缺的问题，公司可能在2028年之前超过新内容。

🎯

关键要点

AI公司在获取高质量训练数据方面遇到困难，导致采取可疑做法。
OpenAI为训练GPT-4转录了超过一百万小时的YouTube视频，尽管知道这在法律上有问题。
OpenAI的发言人表示，公司使用多种来源的数据，并考虑生成自己的合成数据。
OpenAI在2021年耗尽了有用数据，开始转录YouTube视频、播客和有声书。
Google表示其条款禁止未经授权抓取YouTube内容，并采取技术和法律措施防止此类行为。
Google也从YouTube获取了转录，声称遵循与创作者的协议。
Meta在寻找训练数据时也面临限制，考虑支付书籍许可费或购买大型出版商。
AI训练领域面临数据短缺问题，预计到2028年可能超过新内容。

❓

延伸问答

OpenAI为什么转录YouTube视频？

OpenAI转录YouTube视频是为了获取高质量的训练数据，以训练其语言模型GPT-4。

OpenAI在获取训练数据时面临哪些法律问题？

OpenAI知道转录YouTube视频在法律上是有问题的，但认为这是合理使用。

Google如何处理YouTube内容的转录？

Google表示其条款禁止未经授权抓取YouTube内容，并采取技术和法律措施防止此类行为。

Meta在寻找训练数据时遇到了什么限制？

Meta在寻找训练数据时面临版权限制，考虑支付书籍许可费或购买大型出版商。

AI训练领域目前面临什么样的数据短缺问题？

AI训练领域面临数据短缺问题，预计到2028年可能会超过新内容的产生。

OpenAI是如何收集训练数据的？

OpenAI通过多种来源收集数据，包括公开数据和与非公开数据的合作，并考虑生成合成数据。

🏷️

继续阅读

开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
再谈响度战争：为什么你看的视频越来越「吵」了？
文章探讨了“响度战争”现象，即视频和音频内容为了吸引观众注意力而不断提高响度。这种趋势导致动态范围减小，影响听觉体验。虽然更响的声音能短期提升表现力，但可...
姚顺雨首度公开回应：为什么离开OpenAI加入腾讯？
2026腾讯云AI产业大会在北京举行，姚顺雨首次公开露面，分享了他对AI下半场的看法。他强调AI的核心在于寻找问题，而非技术本身，并指出腾讯的产品环境和组...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...