量子位 ·

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

厦门大学和香港科技大学提出的新算法MAGE改进了离线强化学习。MAGE采用自顶向下的生成策略，先进行宏观规划，再细化微观细节，有效解决了现有模型在长程规划中的不足。实验结果表明，MAGE在多个任务中表现优异，推理速度快，适合实时控制，展现出强大的全局规划能力。

🎯

🔎

MAGE算法通过自顶向下的生成策略，解决了传统离线强化学习在长程规划中的局限性。与现有模型相比，MAGE能够更好地捕捉全局结构，避免了局部合理但全局偏航的问题。这种创新的思路使得MAGE在复杂任务中表现出色，尤其是在需要全局规划的场景中。

MAGE在多个基准测试中超越了15种基线算法，显示出其在高维连续控制任务中的优越性。这不仅证明了MAGE的有效性，也为实际应用提供了可能性，尤其是在机器人控制和实时决策中，MAGE的推理速度和性能表现都满足了实际需求。

MAGE的多尺度轨迹建模方法使得算法能够在不同时间尺度上进行规划，既关注宏观目标，又不忽视微观细节。这种灵活性使得MAGE在处理复杂任务时，能够生成更连贯且高效的轨迹，适应多变的环境和任务需求。

❓

MAGE算法采用自顶向下的生成策略，先进行宏观规划，再细化微观细节，有效解决了现有模型在长程规划中的不足。

MAGE解决了现有模型在长程规划中局部合理但全局偏航的问题，展现出强大的全局规划能力。

在多个离线RL基准测试中，MAGE表现优异，超越了15种基线算法，且推理速度满足实时控制需求。

MAGE包含多尺度轨迹自编码器和条件引导自回归生成模块。

MAGE的推理速度比Hierarchical Diffuser快约50倍，比Decision Diffuser快80倍，满足实时控制的要求。

在迷宫导航任务中，MAGE在所有数据集上均取得了最佳性能，证明了其处理长序列导航任务的卓越能力。

🏷️