RISE——组合式世界模型驱动的RL框架：基于视频扩散模型预测的未来视觉状态，和VLA估计的进度价值评估，以先离线预热后在线改进

💡 原文中文，约18600字，阅读约需45分钟。

📝

内容提要

RISE是一个通过想象进行机器人强化学习的框架，旨在提升视觉-语言-动作模型在复杂任务中的鲁棒性。它结合动力学预测和价值估计，利用组合式世界模型生成高效学习信号，表现优于传统强化学习方法，能够有效应对动态适应性和精确性要求的任务。

🎯

关键要点

RISE是一个通过想象进行机器人强化学习的框架，旨在提升视觉-语言-动作模型在复杂任务中的鲁棒性。
RISE结合动力学预测和价值估计，利用组合式世界模型生成高效学习信号。
该框架通过自我改进循环，迭代生成想象轨迹并优化策略，能够有效应对动态适应性和精确性要求的任务。
RISE在一系列真实世界任务上表现优于传统强化学习方法，避免了代价高昂的真实世界试错过程。
组合式世界模型将动力学预测与价值估计解耦，使得每个组件的架构可以独立优化，从而提高了模型的可控性和效率。

❓

延伸问答

RISE框架的主要目标是什么？

RISE框架旨在通过想象进行机器人强化学习，以提升视觉-语言-动作模型在复杂任务中的鲁棒性。

RISE是如何结合动力学预测和价值估计的？

RISE结合动力学预测和价值估计，通过组合式世界模型生成高效学习信号，以支持策略改进。

RISE在真实世界任务中的表现如何？

RISE在一系列真实世界任务上表现优于传统强化学习方法，能够有效应对动态适应性和精确性要求。

RISE框架的自我改进循环是怎样的？

RISE通过自我改进循环，迭代生成想象轨迹并优化策略，从而提升学习效果。

组合式世界模型的优势是什么？

组合式世界模型将动力学预测与价值估计解耦，使得每个组件的架构可以独立优化，从而提高模型的可控性和效率。

RISE如何避免真实世界试错过程的高成本？

RISE通过在想象中执行同策略强化学习，避免了代价高昂的真实世界试错过程。

🏷️

继续阅读

HTD——基于触觉预测的人形行走-操作框架：融合视觉、本体感知、力反馈、触觉，同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量
本文探讨了人形机器人在“行走-操作”任务中的挑战，提出了一种集成式全身操控系统，结合强化学习、VR遥操作和触觉感知。研究者开发了具身触觉梦境的Transf...
Nature封面：机器人乒乓球干翻人类职业选手
索尼的机器人Ace在乒乓球比赛中表现出色，击败多位职业选手，展示了其高效的视觉和决策算法。Ace的成功标志着索尼在机器人研发上的回归，尽管日本在这一领域曾...
ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力
以色列理工学院的研究团队提出了一种名为 Task Tokens 的方法，旨在高效适配行为基础模型（BFM）到特定任务。该方法通过减少可训练参数和提高收敛速...
特斯拉的收入再次上升，准备加大对人工智能和机器人技术的投入
特斯拉在2026年第一季度报告中显示，收入达到224亿美元，净利润4.77亿美元，分别比2025年增长16%和17%。公司计划在第二季度建设首个大规模的O...
教AI模型说“我不确定”
麻省理工学院的研究人员开发了一种新训练方法“带校准奖励的强化学习”（RLCR），该方法提高了AI模型的信心估计准确性，减少了90%的校准误差，同时保持或提...
观看索尼的顶级乒乓球机器人击败排名前列的选手
索尼开发的乒乓球机器人Ace，利用12个摄像头与顶级人类选手对抗，是首个在国际乒联规则下击败顶尖选手的机器人。Ace在2025年赢得三场比赛，展现了其快速...