本文提出情感梯度元认知递归自我改进(EG-MRSI)框架,以解决学习算法的安全性问题。通过引入可微分的内在奖励函数,EG-MRSI有效结合自我反思与情感动机,为安全的通用人工智能提供理论基础。
本研究探讨了稀疏奖励环境下强化学习的探索问题,比较了四种内在奖励策略。结果表明,状态计数在低维观察中表现最佳,但在RGB观察中性能下降,而最大熵策略则更具鲁棒性,为提升探索性能提供了新依据。
本研究通过引入基于策略的内在奖励函数,解决了强化学习中的探索问题,提高了探索效率,并提出了一种新的离线最大熵强化学习算法。
本研究提出了一种名为ELEMENT的多尺度增强学习框架,旨在解决长期探索中的回报消失和高计算成本问题。通过引入情节最大熵优化和新内在奖励,显著提升了探索效率,展现出良好的适应性和性能。
本文探讨了内在动机在深度强化学习中的重要性,比较了不同内在奖励机制对学习行为的影响。研究表明,内在奖励与学习者的内省能力密切相关,并提出结合内在动机与模仿学习的优化方法,以应对稀疏奖励的挑战。此外,介绍了模块化框架RLeXplore,提供多种内在奖励算法的实现。
本文探讨了多任务离线强化学习中的数据共享问题,提出了一种保守的数据共享方法,以提升机器人控制性能。同时,研究了基于模型的元强化学习方法MerPO,改进了探索与利用的平衡。此外,介绍了利用专家数据提取内在奖励的方法,解决了离线强化学习中的外部奖励问题。最后,研究了离线多任务表示学习,提出了新算法MORL,展示了使用上游任务表示的优势。
本文介绍了计划辅助控制(SAC-X)和逆强化学习(IRL)的研究进展,重点探讨了多智能体协作、内在奖励设计及其在复杂环境中的应用,强调了内在奖励在稀疏奖励情况下的重要性,并提出了RLeXplore框架以支持无监督学习。
本文研究了熵作为内在奖励在强化学习中的效果,特别是在软性演员-评论家(SAC)方法中。研究表明,熵奖励应谨慎使用,建议将其归一化为零或从策略评估中删除,以提升性能和鲁棒性。通过多项实验,提出的改进方法在多个控制任务中表现优越。
本文提出了生成对抗性探索(GAEX)方法,利用生成对抗网络的内在奖励来促进强化学习中的探索。实验证明,应用GAEX在DQN上可以显著提升探索性能,这是首次使用GAN解决强化学习中的探索问题。
研究发现预测内在奖励方法可能出现灾难性遗忘,提出了 FARCuriosity 方法来减轻问题,提升游戏性能表现。
研究者提出了一种名为APART的组合方法,通过使用内在奖励和轨迹预测技能的判别器相互训练。他们发现这种方法在简单的网格环境中显著减少了样本数量。研究者通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能。这些研究结果揭示了强化学习中技能发现算法成功的关键因素。
BYOL-Explore是一种基于好奇心驱动的AI代理,旨在解决复杂的探索任务。它通过预测自身未来的表示来学习世界的表示,并利用预测误差作为内在奖励,优化探索策略。在复杂的3D任务中,BYOL-Explore表现优异,且仅需单一网络训练,超越了其他竞争代理的性能。未来可扩展至高度随机环境,以生成未来事件的轨迹。
完成下面两步后,将自动完成登录并继续当前操作。