机器之心 ·

英伟达神秘视频基础模型「Cosmos」曝光，数据全靠偷

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

英伟达正在从YouTube和其他来源抓取视频数据，用于AI产品的训练。员工被要求从Netflix、YouTube和其他来源抓取视频，以训练AI模型。英伟达使用了开源的YouTube视频下载器，并使用了20到30台虚拟机每天下载相当于80年的视频。英伟达似乎不在意法律问题，员工被告知已获得公司最高层的批准。此外，他们还购买了800万支YouTube视频，并通过谷歌云下载。这些行为可能涉及版权问题。

🎯

关键要点

英伟达正在抓取视频数据用于AI产品训练，主要来源包括YouTube和Netflix。
员工被告知已获得公司最高层的批准，可以使用禁止商用的研究数据集和YouTube视频。
项目内部命名为Cosmos，目标是构建先进的视频基础模型。
英伟达使用开源的YouTube视频下载器，每天下载相当于80年的视频。
谷歌和Netflix均表示与英伟达未达成内容采集协议，且不允许抓取内容。
英伟达似乎不在意法律问题，认为抓取视频的决定是行政决定。
Cosmos项目将用于商业用途，内部邮件显示已编译3850万个视频URL。
项目组讨论如何有效将游戏画面添加到训练数据中。
英伟达以每支视频0.00625美元的价格购买了800万支YouTube视频。
Cosmos团队正在开发的模型旨在用于多种产品的商业用途。

❓

延伸问答

英伟达的Cosmos项目主要用于什么目的？

Cosmos项目旨在构建一个先进的视频基础模型，用于训练AI产品。

英伟达是如何收集视频数据的？

英伟达通过抓取YouTube和Netflix等来源的视频数据，使用开源的YouTube视频下载器，每天下载相当于80年的视频。

英伟达在抓取视频数据时是否考虑法律问题？

英伟达似乎不在意法律问题，员工被告知已获得公司最高层的批准，可以使用这些内容。

Cosmos项目的内部讨论中提到哪些视频内容？

项目组讨论了如何将游戏画面添加到训练数据中，并考虑使用好莱坞电影等高质量视频。

英伟达购买了多少支YouTube视频用于Cosmos项目？

英伟达以每支视频0.00625美元的价格购买了800万支YouTube视频。

Cosmos项目的进展如何？

Cosmos项目在两周内完成了10万次视频下载，并编译了3850万个视频URL。

🏷️