量子位 ·

让机器人在“想象”中学习世界的模型来了！PI联创课题组&清华陈建宇团队联合出品

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

研究团队提出了可控生成世界模型Ctrl-World，帮助机器人在“想象空间”中进行任务预演和策略评估。该模型在零真机数据下，成功率从38.7%提升至83.4%，显著提升了机器人在复杂场景中的表现。

🎯

🔎

Ctrl-World通过多视角输入、帧级动作控制和姿态条件记忆检索三项技术，突破了传统世界模型的局限。这些创新使得机器人在虚拟环境中能够更精准地模拟真实操作，降低了幻觉率，提高了策略评估的准确性。

Ctrl-World的虚拟预演能力使得机器人能够在没有真实物理资源消耗的情况下进行策略优化。这一特性不仅降低了训练成本，还能加速机器人在复杂场景中的适应能力，具有广泛的工业和家庭应用潜力。

尽管Ctrl-World在多个方面取得了显著进展，但仍需提升对复杂物理场景的适应能力。未来，结合视频生成与强化学习的策略将有助于进一步提高模型的性能，使其更好地应对现实世界的挑战。

❓

Ctrl-World模型帮助机器人在想象空间中进行任务预演和策略评估。

该模型在零真机数据下，成功率从38.7%提升至83.4%，平均改进幅度达44.7%。

它通过多视角输入、帧级动作控制和姿态条件记忆检索三项技术，解决了单视角导致幻觉、动作控制不精细和长时一致性差的问题。

实验显示，Ctrl-World在生成质量、评估准确性和策略优化方面表现优异，生成的虚拟轨迹与真实世界高度对齐。

未来计划结合视频生成与强化学习，提升模型对复杂物理场景的适配能力，并扩大训练数据集。

它可降低机械臂调试成本，并能快速适配个性化任务，如操作异形水杯和整理不规则衣物。

🏷️