小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
论文汇总 | 大模型强化学习最新进展,微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

当前强化学习的发展旨在突破稀疏奖励与静态监督的限制,赋予模型自主学习与自我进化的能力。研究者们提出了ECHO、DelTA和GoLongRL等新方法,以提升智能体在复杂环境中的表现和决策能力。这些研究为构建具备强推理和自学习能力的下一代大模型提供了重要启示。

论文汇总 | 大模型强化学习最新进展,微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

HyperAI超神经
HyperAI超神经 · 2026-05-28T10:17:04Z
ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

研究者提出了优势奖励建模(ARM)框架,以解决长时间跨度机器人任务中的稀疏奖励问题。ARM通过三态标注策略(前进、后退、停滞)降低人类标注负担,并自动生成进度标注。在毛巾折叠任务中,该方法实现了99.4%的成功率,显著提高了强化学习的效率和稳定性。

ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

结构之法 算法之道
结构之法 算法之道 · 2026-04-28T16:09:26Z

本研究提出了一种新算法,通过优势加权重要性采样训练平面目标条件策略,解决了离线目标条件强化学习中的稀疏奖励和折扣问题。该方法无需生成(子)目标空间模型,并在复杂长期任务中展现出超越现有技术的潜力。

Flattening Hierarchies through Policy Bootstrapping

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种名为“代码作为生成性拟态(CoGA)”的方法,旨在提高强化学习代理在稀疏奖励和大行动空间环境中的样本效率。通过利用预训练的视觉-语言模型生成代码,CoGA限制了代理的行动空间,从而提升学习效率。研究结果表明,CoGA在多个任务上表现出更高的样本效率。

Cracking the Code of Action: A Generative Approach to Affordances for Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z

本研究提出了一种基于视频数据的价值函数,旨在解决在线强化学习中稀疏奖励导致的反馈不足问题。该方法利用多样的数据源,展现出良好的迁移效果和泛化能力,有望提升在线强化学习的效果与效率。

ViVa: Video-Trained Value Functions for Guiding Online Reinforcement Learning from Diverse Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究提出了一种稀疏奖励机制,以提升网络防御代理在复杂环境中的训练效果。通过验证两种稀疏奖励机制,结果表明其相较于密集奖励,能有效提高代理的有效性和训练稳定性。

Less is More? Rewards for Network Defense in Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z

本研究提出了一种新方法OTPR,结合最优运输理论与强化学习,解决了扩散策略在分布转移中的鲁棒性问题。实验结果表明,OTPR在复杂稀疏奖励环境中表现优异,促进了模仿学习与强化学习的结合。

Score-based Diffusion Strategy Compatible Optimal Transport Method with Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究提出了一种对抗估计方法,旨在提高深度强化学习在稀疏奖励环境中的样本效率,通过利用少量人类轨迹加速算法的收敛。

Search-based Adversarial Estimation to Improve Sample Efficiency in Off-Policy Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究探讨了强化学习中稀疏与密集奖励的平衡问题,提出了一种基于幼儿启发的奖励转变方法,显著提高了学习性能和样本效率,增强了模型的泛化能力。

From Sparse to Dense: Reward Transition Inspired by Toddlers in Goal-Oriented Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出了一种新方法——通过时间距离实现情节新颖性(ETD),有效应对稀疏奖励环境中的探索挑战,实验结果表明其优于现有方法。

通过时间距离实现情节新颖性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-26T00:00:00Z

本研究探讨了稀疏奖励环境下强化学习的探索问题,比较了四种内在奖励策略。结果表明,状态计数在低维观察中表现最佳,但在RGB观察中性能下降,而最大熵策略则更具鲁棒性,为提升探索性能提供了新依据。

内在奖励对强化学习中探索的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z

本研究提出了一种段落级奖励模型,解决了强化学习中序列性和稀疏奖励的问题,提高了奖励学习的有效性。

文本分割与奖励学习以改善语言模型的强化学习人类反馈

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z

本研究提出了一种新颖的离线强化学习算法——直接优势策略优化(DAPO),旨在解决大语言模型推理中的稀疏奖励和不稳定性问题。通过引入评价函数,DAPO能够有效优化生成策略,显著提升数学和代码处理能力。

Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本研究提出了一种新方法——时间代理奖励再分配(TAR²),旨在解决多智能体环境中因稀疏或延迟奖励导致的最佳策略学习困难。TAR²通过奖励再分配加快学习过程并稳定效果,其性能与传统多代理强化学习方法相当或更佳。

Agent-Temporal Credit Assignment for Optimal Policy Preservation in Multi-Agent Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究提出了一种基于令牌级奖励正则化(T-REG)的方法,旨在解决传统RLHF对稀疏奖励的依赖问题。通过自生成的令牌级奖励优化偏好分配,实验结果表明该方法在基准测试中显著优于基线方法。

T-REG: 基于令牌级奖励正则化的偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究提出了一种新方法,将伞形采样与最优控制结合,解决强化学习中的非线性问题。该方法在处理稀疏奖励和状态陷阱时,计算效率更高,适用性更广。

Umbrella Reinforcement Learning: A Computationally Efficient Tool for Solving Challenging Nonlinear Problems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本研究针对传统强化学习中的稀疏奖励问题,提出了一种逐步奖励优化策略,以提升智能体在复杂任务中的表现。通过比较专家与代理的动作,自动生成中间奖励,实现更精细的策略优化,实验结果表明该方法优于现有基线。

From Novice to Expert: Optimizing LLM Agent Strategies through Stepwise Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了一种名为ONI的分布式架构,旨在解决从自然语言描述中自动合成密集奖励的局限性,特别是在稀疏奖励和开放式探索任务中。该方法在NetHack学习环境中的稀疏奖励任务中表现出色,展示了其有效性和潜在影响。

Online Intrinsic Rewards for Decision-Making Agents from Large Language Model Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了一种新方法SUPE,通过提取低级技能和伪标记未标记轨迹数据,提升强化学习中的探索策略,从而显著提高稀疏奖励任务的探索效率。

Leveraging Unlabeled Historical Data to Provide Skills for Efficient Online Exploration

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-23T00:00:00Z

本研究提出了OHIO框架,通过逆优化从静态离线数据集中学习层次策略,以应对高维动作空间和稀疏奖励的挑战。实验证明,该方法在机器人和网络优化问题上优于传统强化学习,显著提升了系统的鲁棒性。

Offline Hierarchical Reinforcement Learning via Inverse Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码