机器之心 ·

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

MIT研究团队开发了LucidSim技术，通过生成模型在虚拟环境中训练机器人，提升其在真实世界中的表现。该方法结合视觉跑酷场景，增强机器人在多样化环境中的学习能力，克服传统数据收集的局限性。

🎯

关键要点

MIT研究团队开发LucidSim技术，通过生成模型在虚拟环境中训练机器人，解决机器人学习数据稀缺问题。
传统数据收集方法在新场景和任务中效率低下，获取足够数据对提升机器人性能至关重要。
模拟环境训练机器人可以安全探索多样化环境，但现有模拟技术与现实存在差距。
生成模型可以填补模拟环境中的多样性和高质量场景内容的缺失，促进sim-to-real迁移。
研究者使用视觉跑酷场景训练机器人，核心在于精确控制场景外观与语义组成。
采用Prior-Assisted Domain Generation（PADG）技术，通过生成模型内部先验知识填补信息空白。
使用多样化的元提示生成结构化图像块，以提高生成图像的多样性。
研究者增强文本到图像模型，使其与模拟物理保持一致，确保图像几何准确。
开发Dreams In Motion（DIM）技术，通过计算光流生成时间一致的视频序列，提高渲染速度。
训练过程分为预训练和后训练阶段，通过on-policy数据收集提升视觉策略性能。
LucidSim在多项任务中表现优于传统域随机化方法，能够有效迁移到现实世界。
研究者在Unitree Go1机器人上部署LucidSim，成功完成追逐和跨越障碍任务。
通过DAgger方法进行on-policy学习，显著提升策略的稳健性和性能。
研究者发现深度策略在训练中容易过拟合，使用有限深度的策略能提高性能。
DIM技术加速了策略展开，权衡几何准确性与生成图像细节丰富度。

🔎

延伸解读

机器人学习的挑战与机遇

机器人学习面临数据稀缺的挑战，传统方法在新场景中效率低下。MIT的LucidSim技术通过生成模型在虚拟环境中训练机器人，提供了一种新的解决方案。这种方法不仅能提高机器人的学习能力，还能有效减少对真实数据的依赖，具有广泛的应用潜力。

模拟与现实的桥梁

LucidSim技术通过生成多样化的视觉数据，解决了模拟环境与现实世界之间的差距。研究者采用的Prior-Assisted Domain Generation（PADG）技术，利用生成模型的先验知识填补信息空白，增强了机器人在真实环境中的适应能力。这一创新为未来的机器人训练提供了新的思路。

on-policy学习的重要性

研究表明，基于on-policy的学习方法在提升机器人策略的稳健性和性能方面具有显著优势。通过DAgger方法，机器人能够在训练中不断优化自身策略，克服过拟合问题。这一过程强调了实时数据收集的重要性，为机器人在复杂环境中的表现提供了保障。

❓

延伸问答

MIT的LucidSim技术如何解决机器人学习中的数据稀缺问题？

LucidSim技术通过生成模型在虚拟环境中训练机器人，提供多样化的训练数据，克服传统数据收集的局限性。

在LucidSim中，如何确保生成的图像与现实世界的物理一致性？

研究者通过增强文本到图像模型，使其与模拟物理保持一致，并使用深度图像和语义掩码进行训练。

LucidSim在机器人训练中的优势是什么？

LucidSim在多项任务中表现优于传统域随机化方法，能够有效迁移到现实世界，提升机器人的稳健性和性能。

如何通过LucidSim进行on-policy学习？

通过DAgger方法结合on-policy数据收集与专家数据，反复迭代以提升视觉策略的性能。

LucidSim如何处理多样化的训练场景？

研究者使用Prior-Assisted Domain Generation技术，通过生成模型内部的先验知识填补信息空白，生成多样化的场景。

在LucidSim的实验中，机器人完成了哪些任务？

机器人在实验中完成了追踪足球、追踪橙色交通锥和攀爬各种材质的楼梯等任务。

🏷️