让世界模型直接控制机器人动作,蚂蚁灵波开源具身世界模型LingBot-VA
💡
原文中文,约1200字,阅读约需3分钟。
📝
内容提要
蚂蚁灵波开源的LingBot-VA具身世界模型结合视频生成与机器人控制,能够实时推演和执行动作,在复杂任务中表现优异,成功率显著提升,采用新架构实现高效推理,推动具身智能的发展。
🎯
关键要点
- 蚂蚁灵波开源具身世界模型LingBot-VA,结合视频生成与机器人控制。
- LingBot-VA提出自回归视频-动作世界建模框架,实现边推演边行动。
- 在真机评测中,LingBot-VA在复杂物理交互任务中表现优异,成功率提升20%。
- 在仿真评测中,LingBot-VA在RoboTwin 2.0和LIBERO基准测试中刷新行业纪录,成功率超过90%和98.5%。
- LingBot-VA采用Mixture-of-Transformers架构,实现视频处理与动作控制的跨模态融合。
- 通过闭环推演机制,LingBot-VA确保生成的画面与动作符合物理现实。
- 为解决计算瓶颈,LingBot-VA设计了异步推理管线,实现动作预测与电机执行并行化处理。
- LingBot-VA探索出“世界模型赋能具身操作”的新路径,推动具身智能的发展。
- LingBot-VA的模型权重和推理代码已全面开源。
➡️