让世界模型直接控制机器人动作,蚂蚁灵波开源具身世界模型LingBot-VA

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

蚂蚁灵波开源的LingBot-VA具身世界模型结合视频生成与机器人控制,能够实时推演和执行动作,在复杂任务中表现优异,成功率显著提升,采用新架构实现高效推理,推动具身智能的发展。

🎯

关键要点

  • 蚂蚁灵波开源具身世界模型LingBot-VA,结合视频生成与机器人控制。
  • LingBot-VA提出自回归视频-动作世界建模框架,实现边推演边行动。
  • 在真机评测中,LingBot-VA在复杂物理交互任务中表现优异,成功率提升20%。
  • 在仿真评测中,LingBot-VA在RoboTwin 2.0和LIBERO基准测试中刷新行业纪录,成功率超过90%和98.5%。
  • LingBot-VA采用Mixture-of-Transformers架构,实现视频处理与动作控制的跨模态融合。
  • 通过闭环推演机制,LingBot-VA确保生成的画面与动作符合物理现实。
  • 为解决计算瓶颈,LingBot-VA设计了异步推理管线,实现动作预测与电机执行并行化处理。
  • LingBot-VA探索出“世界模型赋能具身操作”的新路径,推动具身智能的发展。
  • LingBot-VA的模型权重和推理代码已全面开源。
➡️

继续阅读