小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文讨论了策略梯度方法在语言模型训练中的应用,重点介绍了REINFORCE算法。通过log-derivative技巧,策略梯度能够优化期望回报,而无需对不可微奖励求导。文章还分析了高方差问题及其在长序列和稀疏奖励中的影响,并介绍了RLOO等现代改进方法,以降低方差并提高训练稳定性。

【强化学习与大模型后训练】03|策略梯度与 REINFORCE

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

PPO(近端策略优化)通过裁剪目标和重要性采样比率解决策略梯度的信任域问题。文章探讨了PPO的实现细节,包括优势归一化、价值裁剪和KL惩罚,强调在多轮minibatch更新中保持策略稳定的重要性。训练日志分析有助于识别正常探索与策略失效的信号,并讨论了PPO在RLHF(人类反馈强化学习)中的应用,指出奖励模型和参考策略的影响。

【强化学习与大模型后训练】05|PPO 深度解剖:裁剪目标、KL 约束与实现陷阱

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z
熵保持强化学习

本文探讨了强化学习中的熵保持问题,指出许多策略梯度算法在训练过程中自然降低熵,限制了探索能力。作者建议主动监控和控制熵,并提出了REPO和ADAPO等算法以调节熵,从而保持模型多样性,提高策略的性能和适应性。

熵保持强化学习

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
学习AI代理的五大算法

本文介绍了构建AI代理的五种关键算法:1️⃣ Q学习:通过奖励学习决策;2️⃣ 深度Q网络:利用深度学习处理复杂任务;3️⃣ A*搜索:寻找最短路径;4️⃣ 策略梯度:直接优化策略;5️⃣ 蒙特卡洛树搜索:评估可能的移动。这些算法对开发游戏机器人和自动驾驶汽车至关重要。

学习AI代理的五大算法

DEV Community
DEV Community · 2025-05-21T22:04:49Z

本研究提出了一种新方法——行为约束策略梯度与负样本增强(BCPG-NSA),旨在优化大语言模型的推理能力。通过挖掘负样本中的反思和纠错信息,实验结果表明该方法在数学和编程推理基准测试中优于现有技术,提高了样本效率,并展现出良好的鲁棒性和可扩展性。

Unearthing Gems from Stones: Policy Optimization through Negative Sample Augmentation to Enhance Reasoning Capabilities of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种名为瓦瑟斯坦策略优化(WPO)的强化学习演员-评论家算法,适用于连续动作空间,结合了确定性和经典策略梯度方法的优点,表现优异。

瓦瑟斯坦策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本文提出了一种通过设定轨迹总回报上限来优化条件风险价值(CVaR)的方法,旨在解决现有策略梯度方法中因大量丢弃轨迹而导致的样本效率低下问题。实验结果表明,该方法在多个环境中显著提升了性能。

回报上限:样本高效的条件风险价值策略梯度优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究提出了一种新的自动出价问题表述——纳什均衡约束出价(NCB),旨在最大化广告商的社会福利并满足$ ext{ε}$-纳什均衡约束。通过双层策略梯度框架,成功克服了NCB问题的复杂性,实验结果验证了其有效性。

Auto-Bidding with Nash Equilibrium Constraints and Bi-Level Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

GRPO算法通过组内样本比较计算策略梯度,降低训练不稳定性并提高效率。Andriy Burkov发布了基于Qwen2.5-1.5B-Instruct模型的GRPO实现教程,涵盖数据准备、评估和奖励函数,最终实现模型微调,显著提升准确率。

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

机器之心
机器之心 · 2025-03-02T06:16:41Z

本研究提出了一种通用的策略梯度方法DRPMD,旨在解决强健马尔可夫决策过程中的模型不确定性问题,确保全局最优性,并在复杂场景中验证其强健性和全局收敛性。

Policy Gradient for Robust Markov Decision Processes

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本研究提出了多种新型的Actor-Critic算法,结合策略梯度与Q-learning,提升了数据效率和稳定性,解决了高维动作空间中的学习问题。通过引入新探索策略和扩散模型,算法在多个基准测试中表现优异,超越了现有方法。

缓解复杂Q函数中确定性策略梯度的次优性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本文介绍了一种新的基于选项框架的策略梯度理论,提出了选项-评论架构,能够同时学习内部策略和终止条件。研究了层次策略学习,提出了预算选项神经网络(BONN)模型,展示了其在多种强化学习任务中的有效性。通过引入注意力机制和子任务方法,提升了选项学习的效率和规划能力。

揭示选项与神经分解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

该研究探讨了策略梯度方法在强化学习中的应用,分析了其收敛性和性能保证。结果表明,策略梯度算法在平均奖励马尔可夫决策过程中的收敛速度为O(log(T)),并提供了有限时间的性能保证,强调了与折扣奖励的区别。

具有一般状态和动作的有限时域MDP政策优化的概述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本文研究了基于KL散度的近似策略迭代算法,探讨了熵正则化对策略改进的影响。提出了多种策略梯度方法,并通过实验验证了其在离线强化学习中优化策略的有效性,特别是在处理人类反馈和多任务决策时的表现。

正向KL正则化偏好优化以对齐扩散政策

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文研究了策略梯度方法在多智能体强化学习中的收敛性,提出了一种新的独立策略梯度算法,并证明其达到epsilon-Nash平衡的复杂度为O(1/epsilon^2)。同时,介绍了基于联邦学习的强化学习框架,以确保数据隐私并提高收敛速度。此外,研究探讨了异构环境下的联邦Q学习性能,并提出了改进算法以加速收敛。

朝着联邦与多任务强化学习的快速收敛

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文研究了新型高级策略梯度方法在马尔可夫决策问题中的应用,提出了一种基于距离价值函数的Proximal Policy Optimization算法,有效解决了采样误差问题。实验结果显示,该算法在多负载条件下优于现有方法,接近最优结果。此外,探讨了强化学习在服务速率控制、网络控制优化及多类流体排队网络中的应用,提出了高效的控制策略和算法,显著提高了调度效率。

可微分的离散事件模拟用于排队网络控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

本文提出了一种算法,旨在优化弱交流马尔可夫决策过程中的后悔率。该算法通过正则化最优偏差向量的跨度,在每个周期选择策略,展示了O(HSpAT)的后悔界限。此外,研究探讨了无模型强化学习算法的收敛性及其在平均奖励MDP中的应用,提出了多种有效算法,并分析了策略梯度方法的收敛速度和性能保证。

在弱通信马尔可夫决策过程中平均奖励Q学习的收敛性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文研究了多智能体系统中的学习算法,重点探讨了无模型学习和策略梯度方法在多人博弈中的应用。提出的新算法和框架在收敛性和效率上表现出优势,尤其是在大规模智能体系统中实现纳什均衡的能力。实验结果验证了理论的有效性。

利用近似对称性实现高效的多智能体强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文提出了一种新型策略搜索方法APDO,旨在优化受限马尔可夫决策过程(CMDPs)。实验结果表明,APDO在机器人运动任务中具有更高的采样效率和更快的收敛速度。此外,研究探讨了策略梯度方法在强化学习中的应用,并提出多种算法以解决CMDPs中的约束问题,确保低遗憾和约束违反界限。

用于连续空间约束MDP的确定性策略梯度原始-对偶方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

本文探讨了多智能体强化学习中的策略梯度方法,证明了独立学习算法在不同博弈环境中能够快速收敛至纳什均衡。研究提出了新算法和理论结果,展示了在大规模博弈中实现高效学习的潜力,并强调了去中心化学习的挑战与创新应用。

马尔可夫潜在博弈的独立策略镜像下降:扩展到大数量玩家

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码