世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超Nano Banana
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
北京智源人工智能研究院推出的开源多模态世界模型Emu3.5,具备高精度图像编辑和动态物理模拟能力,能够生成连贯的3D场景和图文教程,性能超越Nano Banana,标志着AI领域的新进展。
🎯
关键要点
- 北京智源人工智能研究院推出开源多模态世界模型Emu3.5。
- Emu3.5具备高精度图像编辑和动态物理模拟能力。
- 该模型能够生成连贯的3D场景和图文教程,性能超越Nano Banana。
- Emu3.5的核心能力是理解长时序和空间一致的序列,模拟虚拟世界中的探索和操作。
- 模型在超过10万亿Token的多模态数据上进行训练,主要来自互联网视频。
- Emu3.5采用标准的Decoder-only Transformer框架,能够同时完成多种任务。
- 智源选择将Emu3.5开源,方便全球开发者和研究者使用。
- 模型的推理速度提升近20倍,解决了自回归模型生成图像慢的问题。
➡️