小红花·文摘

本文提出情感梯度元认知递归自我改进（EG-MRSI）框架，以解决学习算法的安全性问题。通过引入可微分的内在奖励函数，EG-MRSI有效结合自我反思与情感动机，为安全的通用人工智能提供理论基础。

情感梯度元认知递归自我改进（第一部分）：理论基础和单代理架构

BriefGPT - AI 论文速递 ·

本研究探讨了稀疏奖励环境下强化学习的探索问题，比较了四种内在奖励策略。结果表明，状态计数在低维观察中表现最佳，但在RGB观察中性能下降，而最大熵策略则更具鲁棒性，为提升探索性能提供了新依据。

内在奖励对强化学习中探索的影响

BriefGPT - AI 论文速递 ·

本研究通过引入基于策略的内在奖励函数，解决了强化学习中的探索问题，提高了探索效率，并提出了一种新的离线最大熵强化学习算法。

基于未来状态和动作访问度量的离线最大熵强化学习

BriefGPT - AI 论文速递 ·

本研究提出了一种名为ELEMENT的多尺度增强学习框架，旨在解决长期探索中的回报消失和高计算成本问题。通过引入情节最大熵优化和新内在奖励，显著提升了探索效率，展现出良好的适应性和性能。

ELEMENT: Exploring Episodes and Lifelong Learning through Maximum Entropy

BriefGPT - AI 论文速递 ·

本文探讨了内在动机在深度强化学习中的重要性，比较了不同内在奖励机制对学习行为的影响。研究表明，内在奖励与学习者的内省能力密切相关，并提出结合内在动机与模仿学习的优化方法，以应对稀疏奖励的挑战。此外，介绍了模块化框架RLeXplore，提供多种内在奖励算法的实现。

PreND：通过预训练网络蒸馏增强强化学习中的内在动机

BriefGPT - AI 论文速递 ·

本文探讨了多任务离线强化学习中的数据共享问题，提出了一种保守的数据共享方法，以提升机器人控制性能。同时，研究了基于模型的元强化学习方法MerPO，改进了探索与利用的平衡。此外，介绍了利用专家数据提取内在奖励的方法，解决了离线强化学习中的外部奖励问题。最后，研究了离线多任务表示学习，提出了新算法MORL，展示了使用上游任务表示的优势。

技能正则化的多任务离线强化学习任务分解

BriefGPT - AI 论文速递 ·

本文介绍了计划辅助控制(SAC-X)和逆强化学习(IRL)的研究进展，重点探讨了多智能体协作、内在奖励设计及其在复杂环境中的应用，强调了内在奖励在稀疏奖励情况下的重要性，并提出了RLeXplore框架以支持无监督学习。

IReCa：增强内在奖励的上下文感知强化学习用于人机协作

BriefGPT - AI 论文速递 ·

本文研究了熵作为内在奖励在强化学习中的效果，特别是在软性演员-评论家（SAC）方法中。研究表明，熵奖励应谨慎使用，建议将其归一化为零或从策略评估中删除，以提升性能和鲁棒性。通过多项实验，提出的改进方法在多个控制任务中表现优越。

基于最大熵的策略改进演员 - 评论家算法及熵优势估计

BriefGPT - AI 论文速递 ·

本文提出了一种无奖励强化学习框架，利用Renyi熵解决探索与利用的问题，并设计了相应的算法。研究表明，智能体在缺乏外部奖励时，通过好奇心驱动的内在奖励机制能够有效探索环境。实验结果显示，该方法在多智能体合作和稀疏奖励环境中表现优异，具有广泛的应用潜力。

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

BriefGPT - AI 论文速递 ·

研究发现预测内在奖励方法可能出现灾难性遗忘，提出了 FARCuriosity 方法来减轻问题，提升游戏性能表现。

神经启发的碎片化和回忆：解决好奇心中的灾难性遗忘

BriefGPT - AI 论文速递 ·

研究者提出了一种名为APART的组合方法，通过使用内在奖励和轨迹预测技能的判别器相互训练。他们发现这种方法在简单的网格环境中显著减少了样本数量。研究者通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能。这些研究结果揭示了强化学习中技能发现算法成功的关键因素。

APART: 采用升序奖励和丢弃法的多样化技能发现

BriefGPT - AI 论文速递 ·

BYOL-Explore是一种基于好奇心驱动的AI代理，旨在解决复杂的探索任务。它通过预测自身未来的表示来学习世界的表示，并利用预测误差作为内在奖励，优化探索策略。在复杂的3D任务中，BYOL-Explore表现优异，且仅需单一网络训练，超越了其他竞争代理的性能。未来可扩展至高度随机环境，以生成未来事件的轨迹。

BYOL-Explore：基于引导预测的探索

Google DeepMind Blog ·