量子位 ·

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

LaST-R1是一种新型机器人强化学习框架，通过隐空间中的物理推理优化机器人的思考和动作。该方法结合LAPO算法，使机器人在执行动作前进行推理，从而提高在复杂环境中的适应能力和成功率。实验结果显示，LaST-R1在仿真和实际任务中均表现优异，成功率显著提升，标志着机器人从“模仿”向“理解”迈进。

🎯

关键要点

LaST-R1是一种新型机器人强化学习框架，通过隐空间中的物理推理优化机器人的思考和动作。
该方法结合LAPO算法，使机器人在执行动作前进行推理，提高在复杂环境中的适应能力和成功率。
实验结果显示，LaST-R1在仿真和实际任务中表现优异，成功率显著提升。
LaST-R1的核心思想是让机器人在隐空间中理解场景结构、物体关系和物理动态，再生成更稳定、精准的动作。
LAPO算法将“思考过程”纳入强化学习的优化闭环，优化机器人行动前的物理思考。
在仿真环境中，LaST-R1取得99.9%的平均成功率，真机部署成功率从52.5%提升到93.75%。
LaST-R1的意义在于提出了一种新的后训练范式，使机器人不仅能模仿动作，还能进行有效的物理推理。

❓

延伸问答

LaST-R1的核心思想是什么？

LaST-R1的核心思想是让机器人在隐空间中理解场景结构、物体关系和物理动态，再生成更稳定、精准的动作。

LAPO算法在LaST-R1中起什么作用？

LAPO算法将“思考过程”纳入强化学习的优化闭环，优化机器人行动前的物理思考。

LaST-R1在仿真环境中的成功率是多少？

LaST-R1在仿真环境中取得了99.9%的平均成功率。

LaST-R1如何提高机器人的适应能力？

LaST-R1通过在执行动作前进行隐空间中的物理推理，提高了机器人在复杂环境中的适应能力和成功率。

LaST-R1与传统强化学习方法有什么不同？

LaST-R1不仅优化机器人的动作，还优化行动前的物理推理过程，改变了强化学习的重点。

LaST-R1的后训练范式有什么意义？

LaST-R1提出了一种新的后训练范式，使机器人能够在交互中强化物理推理，而不仅仅是模仿动作。

🏷️

继续阅读

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑
清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab，打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧，实现了更高的训...
云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路
本文探讨了机器人在家庭环境中折叠衣物的挑战与技术进展。叠衣服是一项复杂的柔性物体操作任务，考验机器人的感知、控制和执行能力。招商局狮子山人工智能实验室通过...
Frontier Tuning：教AI像您一样工作
微软在Build大会上推出了Frontier Tuning，这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行，能够根据企业的独...
过会！宇树科技成为A股具身智能第一股 | 全球深一度
宇树科技于6月1日通过科创板IPO审核，成为A股“具身智能第一股”。公司计划募资42.02亿元，估值达420亿元。自2016年成立以来，宇树科技实现快速增...
微软首款高级推理人工智能问世
微软在2026年Build大会上发布了多款新AI模型，旗舰模型MAI-Thinking-1是其自主开发的重要进展，表现优异，基于干净数据训练。此外，还推出...
大模型企业扎堆IPO：智谱MiniMax冲刺A股，Anthropic抢先OpenAI递表
2026年6月，全球人工智能市场迎来大模型上市热潮。中国智谱与MiniMax启动A股IPO，美国Anthropic也向SEC提交上市申请。智谱计划募资15...