内容提要
英伟达正在从YouTube和其他来源抓取视频数据,用于AI产品的训练。员工被要求从Netflix、YouTube和其他来源抓取视频,以训练AI模型。英伟达使用了开源的YouTube视频下载器,并使用了20到30台虚拟机每天下载相当于80年的视频。英伟达似乎不在意法律问题,员工被告知已获得公司最高层的批准。此外,他们还购买了800万支YouTube视频,并通过谷歌云下载。这些行为可能涉及版权问题。
关键要点
-
英伟达正在抓取视频数据用于AI产品训练,主要来源包括YouTube和Netflix。
-
员工被告知已获得公司最高层的批准,可以使用禁止商用的研究数据集和YouTube视频。
-
项目内部命名为Cosmos,目标是构建先进的视频基础模型。
-
英伟达使用开源的YouTube视频下载器,每天下载相当于80年的视频。
-
谷歌和Netflix均表示与英伟达未达成内容采集协议,且不允许抓取内容。
-
英伟达似乎不在意法律问题,认为抓取视频的决定是行政决定。
-
Cosmos项目将用于商业用途,内部邮件显示已编译3850万个视频URL。
-
项目组讨论如何有效将游戏画面添加到训练数据中。
-
英伟达以每支视频0.00625美元的价格购买了800万支YouTube视频。
-
Cosmos团队正在开发的模型旨在用于多种产品的商业用途。
延伸问答
英伟达的Cosmos项目主要用于什么目的?
Cosmos项目旨在构建一个先进的视频基础模型,用于训练AI产品。
英伟达是如何收集视频数据的?
英伟达通过抓取YouTube和Netflix等来源的视频数据,使用开源的YouTube视频下载器,每天下载相当于80年的视频。
英伟达在抓取视频数据时是否考虑法律问题?
英伟达似乎不在意法律问题,员工被告知已获得公司最高层的批准,可以使用这些内容。
Cosmos项目的内部讨论中提到哪些视频内容?
项目组讨论了如何将游戏画面添加到训练数据中,并考虑使用好莱坞电影等高质量视频。
英伟达购买了多少支YouTube视频用于Cosmos项目?
英伟达以每支视频0.00625美元的价格购买了800万支YouTube视频。
Cosmos项目的进展如何?
Cosmos项目在两周内完成了10万次视频下载,并编译了3850万个视频URL。