小红花·文摘

熵保持强化学习

Apple Machine Learning Research ·

学习AI代理的五大算法

DEV Community ·

本研究提出了一种新方法——行为约束策略梯度与负样本增强（BCPG-NSA），旨在优化大语言模型的推理能力。通过挖掘负样本中的反思和纠错信息，实验结果表明该方法在数学和编程推理基准测试中优于现有技术，提高了样本效率，并展现出良好的鲁棒性和可扩展性。

Unearthing Gems from Stones: Policy Optimization through Negative Sample Augmentation to Enhance Reasoning Capabilities of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为瓦瑟斯坦策略优化（WPO）的强化学习演员-评论家算法，适用于连续动作空间，结合了确定性和经典策略梯度方法的优点，表现优异。

瓦瑟斯坦策略优化

BriefGPT - AI 论文速递 ·

本文提出了一种通过设定轨迹总回报上限来优化条件风险价值（CVaR）的方法，旨在解决现有策略梯度方法中因大量丢弃轨迹而导致的样本效率低下问题。实验结果表明，该方法在多个环境中显著提升了性能。

回报上限：样本高效的条件风险价值策略梯度优化

BriefGPT - AI 论文速递 ·

本研究提出了一种新的自动出价问题表述——纳什均衡约束出价（NCB），旨在最大化广告商的社会福利并满足$ ext{ε}$-纳什均衡约束。通过双层策略梯度框架，成功克服了NCB问题的复杂性，实验结果验证了其有效性。

Auto-Bidding with Nash Equilibrium Constraints and Bi-Level Reinforcement Learning

BriefGPT - AI 论文速递 ·

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

机器之心 ·

本研究提出了一种通用的策略梯度方法DRPMD，旨在解决强健马尔可夫决策过程中的模型不确定性问题，确保全局最优性，并在复杂场景中验证其强健性和全局收敛性。

强健马尔可夫决策过程的策略梯度

BriefGPT - AI 论文速递 ·

本文探讨了自利独立学习体之间的合作挑战，提出了一种无偏高阶无梯度策略梯度算法，专注于感知强化学习。该算法通过高效序列模型调节行为，以实现合作和高回报。

通过学习感知的策略梯度实现多智能体合作

BriefGPT - AI 论文速递 ·

本文研究了策略梯度方法在多智能体强化学习中的收敛性，提出了一种新的独立策略梯度算法，证明其达到epsilon-Nash平衡的复杂度为O(1/epsilon^2)，样本复杂度界限为O(1/epsilon^5)。实验验证了理论结果的有效性。

凸马尔可夫博弈：多智能体学习中的公平性、模仿和创造性框架

BriefGPT - AI 论文速递 ·

本研究通过变分不等式技术改进多智能体强化学习策略，使用Nested-Lookahead VI和Extragradient方法优化深度确定性策略梯度算法。实验显示，这些方法在多种环境中显著提升性能，表现出良好的平衡能力。

多智能体强化学习的变分不等式方法：性能和稳定性提升

BriefGPT - AI 论文速递 ·

本文提出了一种统一框架，将贝尔曼方程中的随机性视为外部噪声的确定性函数，支持连续控制策略的学习。该框架提供了一系列策略梯度算法，从无模型到有模型的方法。算法仅需环境观察，减少模型误差影响。在随机控制问题和物理模拟中，SVG（1）变体展示了同时学习模型、价值函数和策略的有效性。

无仿真深度学习方法解决随机最优控制问题

BriefGPT - AI 论文速递 ·

该研究首次提出了有限时间全局收敛分析方法，针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。研究证明策略梯度迭代以O(log(T))速率收敛到最优策略，并提供了后悔度保证。主要贡献在于证明算法的收敛性和性能保证，并通过模拟验证了其性能。

具有一般状态和动作的有限时域MDP政策优化的概述

BriefGPT - AI 论文速递 ·

本文研究了强化学习中策略梯度的内隐偏差，发现其对于训练过的初始状态的外推程度取决于系统在这些初始状态下的探索程度。通过理论和实验证实了该结论，并推测通过开发针对初始状态的有信息选择方法，可以显著改进现实世界的最优控制问题。

线性二次控制中策略梯度的隐式偏见：对未观测初始化状态的外推

BriefGPT - AI 论文速递 ·

研究人员提出了一种新技术，用于表示异构处理受限代理。该技术通过共享策略学习和代理技能水平的分布，实现了从严格效用最大化到有界理性行为的过渡。该模型使用策略梯度来学习行为，并在多个实例中证明了在常见代理设置下具有显著改进的预测能力。

多智能体强化学习学习和校准异质有界理性市场行为

BriefGPT - AI 论文速递 ·

该研究提出了一种名为PPO的新的增强学习策略梯度方法，可实现多个小批量更新周期，表现优于其他在线策略梯度方法。同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

自动驾驶车辆的强化学习策略的定量与定性评估

BriefGPT - AI 论文速递 ·

该研究提出了一种新的策略梯度和演员-评论家算法，用于解决连续时间强化学习中的平均场控制问题。该方法利用值函数的梯度表示，采用参数化的随机策略。演员和评论家的学习通过动量神经网络函数在概率测度的Wasserstein空间上实现。数值结果包括多维设置和具有可控波动性的非线性二次平均场控制问题。

使用矩阵神经网络的均场控制的演员评价学习算法

BriefGPT - AI 论文速递 ·

基于动作依赖的分解基线的策略梯度方差降低

OpenAI ·