英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

💡 原文中文,约4200字,阅读约需10分钟。
📝

内容提要

英伟达正在从YouTube和其他来源抓取视频数据,用于AI产品的训练。员工被要求从Netflix、YouTube和其他来源抓取视频,以训练AI模型。英伟达使用了开源的YouTube视频下载器,并使用了20到30台虚拟机每天下载相当于80年的视频。英伟达似乎不在意法律问题,员工被告知已获得公司最高层的批准。此外,他们还购买了800万支YouTube视频,并通过谷歌云下载。这些行为可能涉及版权问题。

🎯

关键要点

  • 英伟达正在抓取视频数据用于AI产品训练,主要来源包括YouTube和Netflix。
  • 员工被告知已获得公司最高层的批准,可以使用禁止商用的研究数据集和YouTube视频。
  • 项目内部命名为Cosmos,目标是构建先进的视频基础模型。
  • 英伟达使用开源的YouTube视频下载器,每天下载相当于80年的视频。
  • 谷歌和Netflix均表示与英伟达未达成内容采集协议,且不允许抓取内容。
  • 英伟达似乎不在意法律问题,认为抓取视频的决定是行政决定。
  • Cosmos项目将用于商业用途,内部邮件显示已编译3850万个视频URL。
  • 项目组讨论如何有效将游戏画面添加到训练数据中。
  • 英伟达以每支视频0.00625美元的价格购买了800万支YouTube视频。
  • Cosmos团队正在开发的模型旨在用于多种产品的商业用途。
➡️

继续阅读