Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

💡 原文中文,约5600字,阅读约需14分钟。
📝

内容提要

Dexmal原力灵机的ManiAgent通过多智能体协作重构机器人操控,形成“感知-推理-控制”的闭环。该系统将复杂任务分解为简单子任务,减少对大量数据的依赖,提升机器人在真实环境中的成功率至95.8%。ManiAgent还能够自动生成高质量数据,支持VLA模型训练。

🎯

关键要点

  • Dexmal原力灵机提出ManiAgent,通过多智能体协作重构机器人操控。
  • ManiAgent形成了一个'感知-推理-控制'的闭环,包含四个核心智能体。
  • VLA模型面临数据饥渴和分布外失效的问题,性能在训练数据不足时下降。
  • ManiAgent通过将复杂任务分解为简单子任务,减少对大量数据的依赖。
  • 该系统在真实环境中的成功率达到95.8%。
  • ManiAgent设计了内部通信机制,使四个智能体紧密配合,提升执行效率。
  • 场景感知Agent利用视觉语言模型生成场景描述,确保描述精度。
  • 推理与规划Agent将宏大任务拆解为可执行子任务,避免累积误差。
  • 物体感知Agent负责锁定目标,解决多实例消歧问题。
  • 控制器Agent直接输出可执行动作序列,减少人为定义的工作量。
  • ManiAgent在仿真环境中取得86.8%的成功率,优于传统VLA模型。
  • 在真实世界测试中,ManiAgent的成功率高达95.8%。
  • ManiAgent能够自动生成高质量数据,支持VLA模型训练。
  • 未来工作将集中在增强实时反馈和扩展应用平台。
➡️

继续阅读