小红花·文摘

$π0.7——4层prompt下的技能组合泛化能力：先高层策略基于指令历史和当前画面输出子任务指令，后世界模型基于子任务指令生成子目标图像$

π0.7——4层prompt下的技能组合泛化能力：先高层策略基于指令历史和当前画面输出子任务指令，后世界模型基于子任务指令生成子目标图像

结构之法算法之道 ·

本文研究强化学习中的子目标发现问题，填补了在复杂任务分解中的空白。我们提出使用自由能范式来识别子目标状态，通过分析状态之间的不可预见性来实现任务的有效分解。实验结果表明，该方法在无任务先验知识的情况下，能够有效表现于复杂的导航任务，并具有较强的环境随机性鲁棒性。

基于自由能范式和状态聚合的子目标发现

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，解决规划和强化学习中的子目标结构识别问题。通过将学习草图分解视为深度强化学习任务，克服了现有方法的局限性，实验结果表明该方法在多个领域有效优化问题解决过程。

通过深度强化学习学习规划中的草图分解

BriefGPT - AI 论文速递 ·

本文针对异构动作空间中代理的迁移强化学习问题，提出了一种新的子目标映射方法。该方法可以在不同的动作空间中有效学习子目标，显著提高学习代理在新任务中的样本效率和训练时间。研究结果表明，通过这种映射，学习代理能够更快地掌握以往专家代理的成功策略。

异构动作空间中的迁移强化学习：子目标映射方法

BriefGPT - AI 论文速递 ·

本研究解决了从非专家的无动作观察数据中学习长期目标达成策略的挑战性问题。提出了一种新颖的子目标引导学习策略，通过生成合理的子目标来促进有效探索，从而显著提高了复杂机器人导航和操作任务的性能，展示了其强大的应用潜力。

通过有效的子目标引导，从非专家观察中学习达成目标的策略

BriefGPT - AI 论文速递 ·

本文综述了机器学习在实现安全决策方面的最新进展，重点介绍了控制理论和强化学习研究中使用的语言和框架。讨论了学习控制方法、强化学习方法和证明学习控制策略安全性的方法。强调了近距离与人类操作时的安全性重要性，提出了未来机器人学习研究中需要解决的挑战和基于物理的基准测试。

通过子目标改进安全策略探索

BriefGPT - AI 论文速递 ·

本研究通过简单的算法修改，解决了在没有奖励、示范或子目标的情况下，如何从对比强化学习中自发涌现技能和有目的探索的问题。研究发现智能体能够在仅仅通过观察目标状态的情况下，自主学习技能，并在不依赖任何额外参数的情况下有效进行探索。这一发现为理解低资源情况下的智能体学习提供了新视角，具有重要的影响潜力。

单一目标足矣：技能与探索在无奖励、无示范或子目标的对比强化学习中涌现

BriefGPT - AI 论文速递 ·

本文提出了一种基于高斯过程的概率子目标表示方法，通过学习先验规划步骤中的长程子目标信息来适应不确定性。同时，还提出了一种新的学习目标，以实现概率子目标表示和策略的同时学习。实验结果表明，该方法在标准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准，并且在不同任务之间转移低层策略具有良好的性能。

概率子目标表示的分层强化学习

BriefGPT - AI 论文速递 ·

本文研究了面向新手用户的非稳健智能决策支持系统的互动，介绍了一种新颖的基于子目标的解释类型，以提高用户任务表现和系统的鲁棒性。研究表明，基于子目标的解释可实现更好的用户任务表现、提高用户区分优化和非优化智能决策支持推荐的能力，并在智能决策支持系统失灵的情况下实现更加鲁棒的用户表现。

面向成功用户决策支持的动态解释选择与可解释人工智能

BriefGPT - AI 论文速递 ·

本文探讨了在原子目标下，许多经典规划领域问题因有界且较小的问题宽度，可通过多项式探索过程（IW）解决。文章提出了有界宽度与最优策略存在的关系，定义了串行化宽度概念，并通过串行化IW算法解决了一些非最优问题。最后，结合策略语言与串行化语义，提出了草图指定串行化方法。

一般政策、子目标结构和规划宽度

BriefGPT - AI 论文速递 ·