本研究提出了一种新方法——探索专家失败(EEF),旨在提升大型语言模型在复杂子任务中的表现。通过借鉴失败专家的有效行为,EEF提高了代理的探索效率和技能获取,成功解决了以往无法完成的子任务,在WebShop中的胜率达62%。
本研究提出了一种高效的状态表征学习方法,旨在解决安全强化学习中探索与安全约束的平衡问题。通过自编码器和对比学习,显著提升了稀疏奖励环境中的探索效率,同时确保了安全性。
本研究提出了一种名为ELEMENT的多尺度增强学习框架,旨在解决长期探索中的回报消失和高计算成本问题。通过引入情节最大熵优化和新内在奖励,显著提升了探索效率,展现出良好的适应性和性能。
本文介绍了一种新的内在奖励方法,通过最大化代理路径的信息量来促进状态覆盖,解决稀疏奖励环境中的问题。相比好奇心驱动学习和随机网络蒸馏,该方法在探索效率上更优,尤其在Montezuma Revenge游戏中表现突出。此外,本文还提出了一种在离散压缩潜在空间中最大化信息量的扩展方法,提高了样本效率,并推广到连续状态空间。
本文介绍了一种基于学习的智能自主路径规划方法,通过学习起点和目标位置的语义信息和地图表示,提高行星探测器的探索效率。实验证明该方法能够在新颖的地图上进行路径规划,并在相同硬件条件下显著缩短寻找最优路径的时间。
该文介绍了一种基于高斯过程回归学习的自主机器人探索方法,通过贝叶斯优化实现权衡开发和探索,提高了探索效率。同时,提出了一种基于贝叶斯核推断和优化的新型信息增益推断方法,实现了近似对数复杂度而无需训练。实验结果表明该方法在不同的环境中具有理想的效率和探索性能。
完成下面两步后,将自动完成登录并继续当前操作。