英伟达版Sora被曝违规抓取大量数据,官方表示不服

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

英伟达被曝违规抓取大量数据,官方表示不服。泄露文件显示,每天抓取非法数据训练新模型,员工被默许在网络上抓取未经授权的数据。英伟达回应称合法。

🎯

关键要点

  • 英伟达版Sora被曝违规抓取大量数据,官方表示不服。
  • 泄露文件显示,员工被默许每天抓取未经授权的数据。
  • 英伟达回应称其做法完全合法,尊重内容创作者的权利。
  • Cosmos项目旨在构建先进的视频基础模型,涉及多个应用领域。
  • 员工使用开源工具从YouTube、奈飞等平台抓取数据。
  • 奈飞表示未与英伟达达成内容提取协议,YouTube也指出违反使用条款。
  • 大厂非法抓取数据的事件屡见不鲜,原始数据对模型训练非常有用。
  • 研究显示,使用高质量数据训练的大模型性能最佳。

延伸问答

英伟达版Sora被指控抓取哪些平台的数据?

英伟达版Sora被指控抓取YouTube和奈飞等平台的数据。

英伟达对抓取数据的合法性有何回应?

英伟达回应称其做法完全合法,并尊重内容创作者的权利。

Cosmos项目的目标是什么?

Cosmos项目旨在构建一个最先进的视频基础模型,涉及多个应用领域。

英伟达员工如何抓取数据以避免被屏蔽?

员工使用名为yt-dlp的开源工具,并通过虚拟机刷新IP地址来避免被屏蔽。

奈飞和YouTube对英伟达的数据抓取有何看法?

奈飞表示未与英伟达达成内容提取协议,YouTube指出英伟达的行为违反使用条款。

使用高质量数据训练的大模型有什么优势?

研究显示,使用高质量数据训练的大模型性能最佳,具有先发优势。

➡️

继续阅读