小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文提出情感梯度元认知递归自我改进(EG-MRSI)框架,以解决学习算法的安全性问题。通过引入可微分的内在奖励函数,EG-MRSI有效结合自我反思与情感动机,为安全的通用人工智能提供理论基础。

情感梯度元认知递归自我改进(第一部分):理论基础和单代理架构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究探讨了稀疏奖励环境下强化学习的探索问题,比较了四种内在奖励策略。结果表明,状态计数在低维观察中表现最佳,但在RGB观察中性能下降,而最大熵策略则更具鲁棒性,为提升探索性能提供了新依据。

内在奖励对强化学习中探索的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z

本研究通过引入基于策略的内在奖励函数,解决了强化学习中的探索问题,提高了探索效率,并提出了一种新的离线最大熵强化学习算法。

基于未来状态和动作访问度量的离线最大熵强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了一种名为ELEMENT的多尺度增强学习框架,旨在解决长期探索中的回报消失和高计算成本问题。通过引入情节最大熵优化和新内在奖励,显著提升了探索效率,展现出良好的适应性和性能。

ELEMENT: Exploring Episodes and Lifelong Learning through Maximum Entropy

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本文探讨了内在动机在深度强化学习中的重要性,比较了不同内在奖励机制对学习行为的影响。研究表明,内在奖励与学习者的内省能力密切相关,并提出结合内在动机与模仿学习的优化方法,以应对稀疏奖励的挑战。此外,介绍了模块化框架RLeXplore,提供多种内在奖励算法的实现。

PreND:通过预训练网络蒸馏增强强化学习中的内在动机

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本文探讨了多任务离线强化学习中的数据共享问题,提出了一种保守的数据共享方法,以提升机器人控制性能。同时,研究了基于模型的元强化学习方法MerPO,改进了探索与利用的平衡。此外,介绍了利用专家数据提取内在奖励的方法,解决了离线强化学习中的外部奖励问题。最后,研究了离线多任务表示学习,提出了新算法MORL,展示了使用上游任务表示的优势。

技能正则化的多任务离线强化学习任务分解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本文介绍了计划辅助控制(SAC-X)和逆强化学习(IRL)的研究进展,重点探讨了多智能体协作、内在奖励设计及其在复杂环境中的应用,强调了内在奖励在稀疏奖励情况下的重要性,并提出了RLeXplore框架以支持无监督学习。

IReCa:增强内在奖励的上下文感知强化学习用于人机协作

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z

本文研究了熵作为内在奖励在强化学习中的效果,特别是在软性演员-评论家(SAC)方法中。研究表明,熵奖励应谨慎使用,建议将其归一化为零或从策略评估中删除,以提升性能和鲁棒性。通过多项实验,提出的改进方法在多个控制任务中表现优越。

基于最大熵的策略改进演员 - 评论家算法及熵优势估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

本文提出了生成对抗性探索(GAEX)方法,利用生成对抗网络的内在奖励来促进强化学习中的探索。实验证明,应用GAEX在DQN上可以显著提升探索性能,这是首次使用GAN解决强化学习中的探索问题。

探索前进:在深度强化学习中利用探索进行泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

研究发现预测内在奖励方法可能出现灾难性遗忘,提出了 FARCuriosity 方法来减轻问题,提升游戏性能表现。

神经启发的碎片化和回忆:解决好奇心中的灾难性遗忘

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-26T00:00:00Z

研究者提出了一种名为APART的组合方法,通过使用内在奖励和轨迹预测技能的判别器相互训练。他们发现这种方法在简单的网格环境中显著减少了样本数量。研究者通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能。这些研究结果揭示了强化学习中技能发现算法成功的关键因素。

APART: 采用升序奖励和丢弃法的多样化技能发现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-24T00:00:00Z

BYOL-Explore是一种基于好奇心驱动的AI代理,旨在解决复杂的探索任务。它通过预测自身未来的表示来学习世界的表示,并利用预测误差作为内在奖励,优化探索策略。在复杂的3D任务中,BYOL-Explore表现优异,且仅需单一网络训练,超越了其他竞争代理的性能。未来可扩展至高度随机环境,以生成未来事件的轨迹。

BYOL-Explore:基于引导预测的探索

Google DeepMind Blog
Google DeepMind Blog · 2022-06-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码