小红花·文摘

$Focus-Then-Contact——跟我之前给一工厂设计的插拔策略不谋而合：先ACT引导到目标区域附近，然后残差RL实施最终插入，且插入过程中视觉提供稠密奖励，必要时人工干预$

Focus-Then-Contact——跟我之前给一工厂设计的插拔策略不谋而合：先ACT引导到目标区域附近，然后残差RL实施最终插入，且插入过程中视觉提供稠密奖励，必要时人工干预

结构之法算法之道 ·

本文讨论了策略梯度方法在语言模型训练中的应用，重点介绍了REINFORCE算法。通过log-derivative技巧，策略梯度能够优化期望回报，而无需对不可微奖励求导。文章还分析了高方差问题及其在长序列和稀疏奖励中的影响，并介绍了RLOO等现代改进方法，以降低方差并提高训练稳定性。

【强化学习与大模型后训练】03｜策略梯度与 REINFORCE

土法炼钢兴趣小组的博客 ·

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

HyperAI超神经 ·

$ARM——用于长时序操作的优势奖励建模：采用三态标注策略(前进/后退/停滞），实现对相对优势的估计(含SARM详解)$

ARM——用于长时序操作的优势奖励建模：采用三态标注策略(前进/后退/停滞），实现对相对优势的估计(含SARM详解)

结构之法算法之道 ·

本研究提出了一种新算法，通过优势加权重要性采样训练平面目标条件策略，解决了离线目标条件强化学习中的稀疏奖励和折扣问题。该方法无需生成（子）目标空间模型，并在复杂长期任务中展现出超越现有技术的潜力。

Flattening Hierarchies through Policy Bootstrapping

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“代码作为生成性拟态（CoGA）”的方法，旨在提高强化学习代理在稀疏奖励和大行动空间环境中的样本效率。通过利用预训练的视觉-语言模型生成代码，CoGA限制了代理的行动空间，从而提升学习效率。研究结果表明，CoGA在多个任务上表现出更高的样本效率。

Cracking the Code of Action: A Generative Approach to Affordances for Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种基于视频数据的价值函数，旨在解决在线强化学习中稀疏奖励导致的反馈不足问题。该方法利用多样的数据源，展现出良好的迁移效果和泛化能力，有望提升在线强化学习的效果与效率。

ViVa: Video-Trained Value Functions for Guiding Online Reinforcement Learning from Diverse Data

BriefGPT - AI 论文速递 ·

本研究提出了一种稀疏奖励机制，以提升网络防御代理在复杂环境中的训练效果。通过验证两种稀疏奖励机制，结果表明其相较于密集奖励，能有效提高代理的有效性和训练稳定性。

Less is More? Rewards for Network Defense in Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法OTPR，结合最优运输理论与强化学习，解决了扩散策略在分布转移中的鲁棒性问题。实验结果表明，OTPR在复杂稀疏奖励环境中表现优异，促进了模仿学习与强化学习的结合。

Score-based Diffusion Strategy Compatible Optimal Transport Method with Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种对抗估计方法，旨在提高深度强化学习在稀疏奖励环境中的样本效率，通过利用少量人类轨迹加速算法的收敛。

Search-based Adversarial Estimation to Improve Sample Efficiency in Off-Policy Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究探讨了强化学习中稀疏与密集奖励的平衡问题，提出了一种基于幼儿启发的奖励转变方法，显著提高了学习性能和样本效率，增强了模型的泛化能力。

From Sparse to Dense: Reward Transition Inspired by Toddlers in Goal-Oriented Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法——通过时间距离实现情节新颖性（ETD），有效应对稀疏奖励环境中的探索挑战，实验结果表明其优于现有方法。

通过时间距离实现情节新颖性

BriefGPT - AI 论文速递 ·

本研究探讨了稀疏奖励环境下强化学习的探索问题，比较了四种内在奖励策略。结果表明，状态计数在低维观察中表现最佳，但在RGB观察中性能下降，而最大熵策略则更具鲁棒性，为提升探索性能提供了新依据。

内在奖励对强化学习中探索的影响

BriefGPT - AI 论文速递 ·

本研究提出了一种段落级奖励模型，解决了强化学习中序列性和稀疏奖励的问题，提高了奖励学习的有效性。

文本分割与奖励学习以改善语言模型的强化学习人类反馈

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的离线强化学习算法——直接优势策略优化（DAPO），旨在解决大语言模型推理中的稀疏奖励和不稳定性问题。通过引入评价函数，DAPO能够有效优化生成策略，显著提升数学和代码处理能力。

Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法——时间代理奖励再分配（TAR²），旨在解决多智能体环境中因稀疏或延迟奖励导致的最佳策略学习困难。TAR²通过奖励再分配加快学习过程并稳定效果，其性能与传统多代理强化学习方法相当或更佳。

Agent-Temporal Credit Assignment for Optimal Policy Preservation in Multi-Agent Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种基于令牌级奖励正则化（T-REG）的方法，旨在解决传统RLHF对稀疏奖励的依赖问题。通过自生成的令牌级奖励优化偏好分配，实验结果表明该方法在基准测试中显著优于基线方法。

T-REG: 基于令牌级奖励正则化的偏好优化

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，将伞形采样与最优控制结合，解决强化学习中的非线性问题。该方法在处理稀疏奖励和状态陷阱时，计算效率更高，适用性更广。

Umbrella Reinforcement Learning: A Computationally Efficient Tool for Solving Challenging Nonlinear Problems

BriefGPT - AI 论文速递 ·

本研究针对传统强化学习中的稀疏奖励问题，提出了一种逐步奖励优化策略，以提升智能体在复杂任务中的表现。通过比较专家与代理的动作，自动生成中间奖励，实现更精细的策略优化，实验结果表明该方法优于现有基线。

From Novice to Expert: Optimizing LLM Agent Strategies through Stepwise Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种名为ONI的分布式架构，旨在解决从自然语言描述中自动合成密集奖励的局限性，特别是在稀疏奖励和开放式探索任务中。该方法在NetHack学习环境中的稀疏奖励任务中表现出色，展示了其有效性和潜在影响。

Online Intrinsic Rewards for Decision-Making Agents from Large Language Model Feedback

BriefGPT - AI 论文速递 ·