英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

💡 原文中文,约4200字,阅读约需10分钟。
📝

内容提要

英伟达正在从YouTube和其他来源抓取视频数据,用于AI产品的训练。员工被要求从Netflix、YouTube和其他来源抓取视频,以训练AI模型。英伟达使用了开源的YouTube视频下载器,并使用了20到30台虚拟机每天下载相当于80年的视频。英伟达似乎不在意法律问题,员工被告知已获得公司最高层的批准。此外,他们还购买了800万支YouTube视频,并通过谷歌云下载。这些行为可能涉及版权问题。

🎯

关键要点

  • 英伟达正在抓取视频数据用于AI产品训练,主要来源包括YouTube和Netflix。

  • 员工被告知已获得公司最高层的批准,可以使用禁止商用的研究数据集和YouTube视频。

  • 项目内部命名为Cosmos,目标是构建先进的视频基础模型。

  • 英伟达使用开源的YouTube视频下载器,每天下载相当于80年的视频。

  • 谷歌和Netflix均表示与英伟达未达成内容采集协议,且不允许抓取内容。

  • 英伟达似乎不在意法律问题,认为抓取视频的决定是行政决定。

  • Cosmos项目将用于商业用途,内部邮件显示已编译3850万个视频URL。

  • 项目组讨论如何有效将游戏画面添加到训练数据中。

  • 英伟达以每支视频0.00625美元的价格购买了800万支YouTube视频。

  • Cosmos团队正在开发的模型旨在用于多种产品的商业用途。

延伸问答

英伟达的Cosmos项目主要用于什么目的?

Cosmos项目旨在构建一个先进的视频基础模型,用于训练AI产品。

英伟达是如何收集视频数据的?

英伟达通过抓取YouTube和Netflix等来源的视频数据,使用开源的YouTube视频下载器,每天下载相当于80年的视频。

英伟达在抓取视频数据时是否考虑法律问题?

英伟达似乎不在意法律问题,员工被告知已获得公司最高层的批准,可以使用这些内容。

Cosmos项目的内部讨论中提到哪些视频内容?

项目组讨论了如何将游戏画面添加到训练数据中,并考虑使用好莱坞电影等高质量视频。

英伟达购买了多少支YouTube视频用于Cosmos项目?

英伟达以每支视频0.00625美元的价格购买了800万支YouTube视频。

Cosmos项目的进展如何?

Cosmos项目在两周内完成了10万次视频下载,并编译了3850万个视频URL。

🏷️

标签

➡️

继续阅读