量子位 ·

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

清华大学与上海AI实验室提出了SimpleVLA-RL方案，旨在解决机器人训练中的数据稀缺和泛化能力不足问题。该方案通过交互式轨迹采样、结果奖励建模和探索增强，显著提升了模型在复杂环境中的表现，实验结果在多个基准测试中达到了SOTA性能。

🎯

🔎

在机器人训练中，数据稀缺性是一个主要瓶颈，传统方法依赖大量高质量的演示数据，导致成本高昂且难以扩展。SimpleVLA-RL通过交互式轨迹采样和结果奖励建模，显著降低了对大规模数据的依赖，使得在有限数据条件下仍能训练出高性能模型。这一创新为机器人训练的可持续发展提供了新的思路。

SimpleVLA-RL不仅在数据稀缺情况下表现优异，还显著提升了模型的泛化能力。实验表明，该模型在面对未见任务时，成功率大幅提升，证明了其学习通用技能的能力。这一特性使得模型在复杂环境中的适应性更强，为实际应用提供了更大的灵活性。

通过SimpleVLA-RL训练的模型展现出自主探索能力，能够发现新的操作策略，如“Pushcut”现象。这表明，强化学习不仅能提高模型的性能，还能促使其超越人类演示的局限，探索更高效的解决方案。这一发现为未来的机器人自主学习和适应性研究开辟了新的方向。

❓

SimpleVLA-RL方案旨在解决机器人训练中的数据稀缺和泛化能力不足问题。

通过交互式轨迹采样、结果奖励建模和探索增强，显著提升了模型的表现。

在LIBERO与RoboTwin等标准基准测试中，SimpleVLA-RL达到了SOTA性能。

SimpleVLA-RL降低了对大规模演示数据的依赖，提升了数据效率。

“Pushcut”现象是模型自主探索出的一种新策略，通过推动而非抓取来完成任务。

通过动态采样和结果奖励建模，增强模型在分布偏移场景下的泛化能力。

🏷️