小红花·文摘

$LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调$

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调

结构之法算法之道 ·

本研究提出了Pass@K策略优化(PKPO)方法，解决了传统强化学习算法在样本独立优化中多样性不足的问题。该方法通过优化pass@k性能，提升了复杂任务中的学习能力。

Pass@K Policy Optimization: Addressing More Challenging Reinforcement Learning Problems

BriefGPT - AI 论文速递 ·

本文提出了一种新的训练方法J4R，旨在提升大语言模型（LLM）在复杂推理中的评估能力。通过等效初始状态组相对策略优化算法（EIS-GRPO），J4R在多样化推理设置中表现优异，超越了现有模型，显示出显著的性能提升和应用潜力。

J4R: Learning to Judge through Equivalent Initial State Group Relative Preference Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，解决强化学习代理在持续学习中如何保留和利用已有知识的挑战。通过整合策略优化与自编码器，系统能够有效识别新任务或环境，并在再次遇到已知环境时选择性检索相关知识。初步结果显示该方法在持续学习中具有潜力。

基于自编码器驱动的任务和新环境识别的持续强化学习

BriefGPT - AI 论文速递 ·

本研究探讨了受监控的马尔可夫决策过程（Mon-MDPs）中不可观察奖励的问题。通过函数逼近方法，智能体能够从可观察奖励的状态泛化到不可观察奖励的环境状态。为了解决过度泛化导致的奖励错误推断，提出了一种基于奖励不确定性的谨慎策略优化方法。

Generalization in Monitored Markov Decision Processes (Mon-MDPs)

BriefGPT - AI 论文速递 ·

本研究提出了一种组方差策略优化（GVPO）方法，以解决后训练中的不稳定性问题，确保奖励最大化与最优策略的一致性，从而提供可靠且灵活的后训练范式。

GVPO: Group Variance Policy Optimization for Post-Training of Large Language Models

BriefGPT - AI 论文速递 ·

本文讨论了群体相对策略优化（GRPO）及其与策略优化（PO）的关系，重点在于GRPO的优势计算方法。GRPO通过不同的响应来估计优势，简化了传统的价值模型需求。研究表明，优化策略需关注样本长度和优势计算，以提高推理模型的性能。

GRPO的新变体及其实现秘密

Josherich的博客 ·

本研究探讨了深度强化学习中如何从随机网络初始化学习最佳策略，提出了隐式策略学习器TIPL，利用Transformer进行轨迹建模，并通过自回归处理策略网络权重。实验结果表明，TIPL能够有效优化策略网络。

Can We Optimize Deep Reinforcement Learning Policy Weights for Trajectory Modeling?

BriefGPT - AI 论文速递 ·

GUI Agent 中使用 RL 提升模型泛化能力

NotionNext BLOG ·

行为正则化与顺序策略优化结合的离线多智能体学习算法

美团技术团队 ·

本研究介绍了Kimi k1.5，采用创新方法训练多模态大语言模型，解决了现有强化学习在竞争性和数据利用上的不足。研究表明，改进的策略优化和上下文扩展使其在多个基准测试中表现优异，具有显著的潜在影响。

Kimi k1.5: Scaling Reinforcement Learning with Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的对齐方法——逐步扩散策略优化（SDPO），有效解决了现有对齐方法在少步扩散模型中的泛化不足问题。实验结果表明，SDPO在奖励基础对齐方面优于以往方法，展现出强大的泛化能力。

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

BriefGPT - AI 论文速递 ·

本研究针对传统强化学习中的稀疏奖励问题，提出了一种逐步奖励优化策略，以提升智能体在复杂任务中的表现。通过比较专家与代理的动作，自动生成中间奖励，实现更精细的策略优化，实验结果表明该方法优于现有基线。

From Novice to Expert: Optimizing LLM Agent Strategies through Stepwise Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新的对抗约束策略优化（ACPO）方法，旨在平衡强化学习中的任务性能与约束满足。实验结果显示，该方法在安全健身房和四足动物移动任务中优于常用基线。

对抗约束策略优化：通过调整预算改善约束强化学习

BriefGPT - AI 论文速递 ·

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

机器之心 ·

本文介绍了一种名为REFUEL的策略优化方法，提升大型语言模型在多轮对话中的长期计划能力。REFUEL通过单一模型估计$Q$值，并在自生成数据上训练，解决协变量偏移问题。实验结果表明，REFUEL在长时间多轮对话中表现优于其他方法，具有很大应用潜力。

回归相对未来：多轮RLHF的高效策略优化

BriefGPT - AI 论文速递 ·

本研究针对传统期望效用理论与人类偏好不一致的问题，利用累积分前景理论提出新的策略优化方法。文章提出新的策略梯度定理，并开发出无模型的策略梯度算法，有效结合累积分前景理论与强化学习。该算法在交通控制和电力管理等领域表现优异，显示出广泛影响。

超越预期回报：一种累积分 prospect 理论强化学习的策略梯度算法

BriefGPT - AI 论文速递 ·

本研究提出了异质PSRO（H-PSRO）框架，解决异质团队零和游戏中的事前均衡问题。现有的Team PSRO方法在角色不同的团队中无法覆盖所有策略空间，导致结果不理想。H-PSRO通过优化团队成员策略，提高收益，并在异质团队游戏中表现优于传统方法。

异质零和团队游戏中的事前均衡计算

BriefGPT - AI 论文速递 ·

本文研究了模型在强化学习算法中的使用，提出了一种基于模型的算法，并探讨了模型在策略优化中的作用。作者证明了模型的使用是合理的，并展示了一种简单的方法，使用短模型生成滚动数据，具有比其他方法更好的样本效率，并能处理其他算法不能处理的问题。

长模型推演不是坏 Q - 值估计的理由

BriefGPT - AI 论文速递 ·

本文研究了模型在强化学习算法中的使用，提出了一种基于模型的算法，并探讨了模型在策略优化中的作用。作者展示了一种简单的方法，使用短模型生成滚动数据，具有比其他方法更好的样本效率，并能处理其他算法不能处理的问题。

信任自信模型 — 不确定性感知策动适应的基于模型的演员 - 评论家算法

BriefGPT - AI 论文速递 ·