💡
原文中文,约6700字,阅读约需16分钟。
📝
内容提要
英伟达在CES发布了名为「Cosmos」的平台,旨在通过生成合成数据解决物理AI的数据不足问题。Cosmos包含8个开源模型,支持视频生成,已被多家机器人和汽车公司采用,推动机器人和自动驾驶技术的发展。
🎯
关键要点
- 英伟达在CES发布了名为「Cosmos」的平台,旨在通过生成合成数据解决物理AI的数据不足问题。
- Cosmos包含8个开源模型,支持视频生成,已被多家机器人和汽车公司采用。
- Cosmos平台的模型参数量从4B到14B不等,训练于2000万小时的视频数据。
- 模型分为扩散模型和自回归模型,支持文本生成视频和文本+视频生成视频两种方式。
- 英伟达的目标是让物理AI普及化,让每个开发者都能使用通用机器人技术。
- 技术报告介绍了用于构建物理AI的Cosmos世界基础模型(WFM)平台,重点关注视觉世界基础模型。
- 作者提出了预训练和后训练的范式,利用大规模视频数据集建立通才模型。
- 开发了一个视频数据整理pipeline,从2000万小时的视频中提取约1亿个视频片段。
- 探讨了基于transformer的扩散模型和自回归模型的可扩展方法。
- Cosmos Tokenizer是一组视觉tokenizer,提供卓越的视觉重建质量和推理效率。
- 经过预训练的WFM可以捕捉现实世界物理和自然行为的一般知识,支持多种物理AI应用。
- 英伟达开发了护栏系统以保护开发者,阻止有害输入和输出。
- 技术报告列出了核心贡献者名单,华人学者在其中占据重要位置。
➡️