英伟达版Sora被曝违规抓取大量数据,官方表示不服
💡
原文中文,约2000字,阅读约需5分钟。
📝
内容提要
英伟达被曝违规抓取大量数据,官方表示不服。泄露文件显示,每天抓取非法数据训练新模型,员工被默许在网络上抓取未经授权的数据。英伟达回应称合法。
🎯
关键要点
- 英伟达版Sora被曝违规抓取大量数据,官方表示不服。
- 泄露文件显示,员工被默许每天抓取未经授权的数据。
- 英伟达回应称其做法完全合法,尊重内容创作者的权利。
- Cosmos项目旨在构建先进的视频基础模型,涉及多个应用领域。
- 员工使用开源工具从YouTube、奈飞等平台抓取数据。
- 奈飞表示未与英伟达达成内容提取协议,YouTube也指出违反使用条款。
- 大厂非法抓取数据的事件屡见不鲜,原始数据对模型训练非常有用。
- 研究显示,使用高质量数据训练的大模型性能最佳。
❓
延伸问答
英伟达版Sora被指控抓取哪些平台的数据?
英伟达版Sora被指控抓取YouTube和奈飞等平台的数据。
英伟达对抓取数据的合法性有何回应?
英伟达回应称其做法完全合法,并尊重内容创作者的权利。
Cosmos项目的目标是什么?
Cosmos项目旨在构建一个最先进的视频基础模型,涉及多个应用领域。
英伟达员工如何抓取数据以避免被屏蔽?
员工使用名为yt-dlp的开源工具,并通过虚拟机刷新IP地址来避免被屏蔽。
奈飞和YouTube对英伟达的数据抓取有何看法?
奈飞表示未与英伟达达成内容提取协议,YouTube指出英伟达的行为违反使用条款。
使用高质量数据训练的大模型有什么优势?
研究显示,使用高质量数据训练的大模型性能最佳,具有先发优势。
➡️