黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量

黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量

💡 原文中文,约6700字,阅读约需16分钟。
📝

内容提要

英伟达在CES发布了名为「Cosmos」的平台,旨在通过生成合成数据解决物理AI的数据不足问题。Cosmos包含8个开源模型,支持视频生成,已被多家机器人和汽车公司采用,推动机器人和自动驾驶技术的发展。

🎯

关键要点

  • 英伟达在CES发布了名为「Cosmos」的平台,旨在通过生成合成数据解决物理AI的数据不足问题。
  • Cosmos包含8个开源模型,支持视频生成,已被多家机器人和汽车公司采用。
  • Cosmos平台的模型参数量从4B到14B不等,训练于2000万小时的视频数据。
  • 模型分为扩散模型和自回归模型,支持文本生成视频和文本+视频生成视频两种方式。
  • 英伟达的目标是让物理AI普及化,让每个开发者都能使用通用机器人技术。
  • 技术报告介绍了用于构建物理AI的Cosmos世界基础模型(WFM)平台,重点关注视觉世界基础模型。
  • 作者提出了预训练和后训练的范式,利用大规模视频数据集建立通才模型。
  • 开发了一个视频数据整理pipeline,从2000万小时的视频中提取约1亿个视频片段。
  • 探讨了基于transformer的扩散模型和自回归模型的可扩展方法。
  • Cosmos Tokenizer是一组视觉tokenizer,提供卓越的视觉重建质量和推理效率。
  • 经过预训练的WFM可以捕捉现实世界物理和自然行为的一般知识,支持多种物理AI应用。
  • 英伟达开发了护栏系统以保护开发者,阻止有害输入和输出。
  • 技术报告列出了核心贡献者名单,华人学者在其中占据重要位置。
➡️

继续阅读