智元机器人发布机器人4D世界模型
💡
原文中文,约2800字,阅读约需7分钟。
📝
内容提要
智元机器人推出的EnerVerse架构结合自回归扩散模型,显著提升了机器人在具身智能领域的动作规划能力。通过稀疏记忆机制和自由锚定视角,EnerVerse在4D生成和动作规划任务中达到了当前的最先进水平,展现出优越的性能和逻辑合理性。
🎯
关键要点
- 智元机器人推出的EnerVerse架构结合自回归扩散模型,提升了机器人动作规划能力。
- 在具身智能领域,机器人需要在任务指引和实时观测基础上规划未来动作。
- 面临的挑战包括模态对齐和数据稀缺。
- EnerVerse架构通过生成未来具身空间来引导动作规划,采用稀疏记忆机制和自由锚定视角。
- 逐块扩散生成技术通过扩散模型为未来空间建模,确保任务时间一致性。
- 稀疏记忆机制降低计算开销,提升生成长程序列的逻辑合理性。
- 自由锚定视角方法允许根据场景灵活重置视角,适应动态遮挡环境。
- EnerVerse在生成网络下游加入Diffusion策略头以验证未来空间生成对动作规划的作用。
- 在视频生成性能上,EnerVerse在短程和长程任务中均表现优于现有模型。
- 在动作规划能力上,EnerVerse在LIBERO基准测试中取得显著优势,成功率超过现有最佳方法。
- 消融实验表明稀疏记忆机制对长程序列生成和长程动作预测至关重要。
- 二阶段训练策略显著提升动作规划性能。
- 注意力可视化显示预测的动作空间与生成的视觉空间之间的时序一致性。
➡️