💡
原文中文,约4200字,阅读约需10分钟。
📝
内容提要
英伟达正在从YouTube和其他来源抓取视频数据,用于AI产品的训练。员工被要求从Netflix、YouTube和其他来源抓取视频,以训练AI模型。英伟达使用了开源的YouTube视频下载器,并使用了20到30台虚拟机每天下载相当于80年的视频。英伟达似乎不在意法律问题,员工被告知已获得公司最高层的批准。此外,他们还购买了800万支YouTube视频,并通过谷歌云下载。这些行为可能涉及版权问题。
🎯
关键要点
- 英伟达正在抓取视频数据用于AI产品训练,主要来源包括YouTube和Netflix。
- 员工被告知已获得公司最高层的批准,可以使用禁止商用的研究数据集和YouTube视频。
- 项目内部命名为Cosmos,目标是构建先进的视频基础模型。
- 英伟达使用开源的YouTube视频下载器,每天下载相当于80年的视频。
- 谷歌和Netflix均表示与英伟达未达成内容采集协议,且不允许抓取内容。
- 英伟达似乎不在意法律问题,认为抓取视频的决定是行政决定。
- Cosmos项目将用于商业用途,内部邮件显示已编译3850万个视频URL。
- 项目组讨论如何有效将游戏画面添加到训练数据中。
- 英伟达以每支视频0.00625美元的价格购买了800万支YouTube视频。
- Cosmos团队正在开发的模型旨在用于多种产品的商业用途。
➡️