小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
熵保持强化学习

本文探讨了强化学习中的熵保持问题,指出许多策略梯度算法在训练过程中自然降低熵,限制了探索能力。作者建议主动监控和控制熵,并提出了REPO和ADAPO等算法以调节熵,从而保持模型多样性,提高策略的性能和适应性。

熵保持强化学习

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
学习AI代理的五大算法

本文介绍了构建AI代理的五种关键算法:1️⃣ Q学习:通过奖励学习决策;2️⃣ 深度Q网络:利用深度学习处理复杂任务;3️⃣ A*搜索:寻找最短路径;4️⃣ 策略梯度:直接优化策略;5️⃣ 蒙特卡洛树搜索:评估可能的移动。这些算法对开发游戏机器人和自动驾驶汽车至关重要。

学习AI代理的五大算法

DEV Community
DEV Community · 2025-05-21T22:04:49Z

本研究提出了一种新方法——行为约束策略梯度与负样本增强(BCPG-NSA),旨在优化大语言模型的推理能力。通过挖掘负样本中的反思和纠错信息,实验结果表明该方法在数学和编程推理基准测试中优于现有技术,提高了样本效率,并展现出良好的鲁棒性和可扩展性。

Unearthing Gems from Stones: Policy Optimization through Negative Sample Augmentation to Enhance Reasoning Capabilities of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种名为瓦瑟斯坦策略优化(WPO)的强化学习演员-评论家算法,适用于连续动作空间,结合了确定性和经典策略梯度方法的优点,表现优异。

瓦瑟斯坦策略优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本文提出了一种通过设定轨迹总回报上限来优化条件风险价值(CVaR)的方法,旨在解决现有策略梯度方法中因大量丢弃轨迹而导致的样本效率低下问题。实验结果表明,该方法在多个环境中显著提升了性能。

回报上限:样本高效的条件风险价值策略梯度优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究提出了一种新的自动出价问题表述——纳什均衡约束出价(NCB),旨在最大化广告商的社会福利并满足$ ext{ε}$-纳什均衡约束。通过双层策略梯度框架,成功克服了NCB问题的复杂性,实验结果验证了其有效性。

Auto-Bidding with Nash Equilibrium Constraints and Bi-Level Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

GRPO算法通过组内样本比较计算策略梯度,降低训练不稳定性并提高效率。Andriy Burkov发布了基于Qwen2.5-1.5B-Instruct模型的GRPO实现教程,涵盖数据准备、评估和奖励函数,最终实现模型微调,显著提升准确率。

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

机器之心
机器之心 · 2025-03-02T06:16:41Z

本研究提出了一种通用的策略梯度方法DRPMD,旨在解决强健马尔可夫决策过程中的模型不确定性问题,确保全局最优性,并在复杂场景中验证其强健性和全局收敛性。

强健马尔可夫决策过程的策略梯度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本文探讨了自利独立学习体之间的合作挑战,提出了一种无偏高阶无梯度策略梯度算法,专注于感知强化学习。该算法通过高效序列模型调节行为,以实现合作和高回报。

通过学习感知的策略梯度实现多智能体合作

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文研究了策略梯度方法在多智能体强化学习中的收敛性,提出了一种新的独立策略梯度算法,证明其达到epsilon-Nash平衡的复杂度为O(1/epsilon^2),样本复杂度界限为O(1/epsilon^5)。实验验证了理论结果的有效性。

凸马尔可夫博弈:多智能体学习中的公平性、模仿和创造性框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

本研究通过变分不等式技术改进多智能体强化学习策略,使用Nested-Lookahead VI和Extragradient方法优化深度确定性策略梯度算法。实验显示,这些方法在多种环境中显著提升性能,表现出良好的平衡能力。

多智能体强化学习的变分不等式方法:性能和稳定性提升

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文提出了一种统一框架,将贝尔曼方程中的随机性视为外部噪声的确定性函数,支持连续控制策略的学习。该框架提供了一系列策略梯度算法,从无模型到有模型的方法。算法仅需环境观察,减少模型误差影响。在随机控制问题和物理模拟中,SVG(1)变体展示了同时学习模型、价值函数和策略的有效性。

无仿真深度学习方法解决随机最优控制问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

该研究首次提出了有限时间全局收敛分析方法,针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。研究证明策略梯度迭代以O(log(T))速率收敛到最优策略,并提供了后悔度保证。主要贡献在于证明算法的收敛性和性能保证,并通过模拟验证了其性能。

具有一般状态和动作的有限时域MDP政策优化的概述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本文研究了强化学习中策略梯度的内隐偏差,发现其对于训练过的初始状态的外推程度取决于系统在这些初始状态下的探索程度。通过理论和实验证实了该结论,并推测通过开发针对初始状态的有信息选择方法,可以显著改进现实世界的最优控制问题。

线性二次控制中策略梯度的隐式偏见:对未观测初始化状态的外推

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-12T00:00:00Z

研究人员提出了一种新技术,用于表示异构处理受限代理。该技术通过共享策略学习和代理技能水平的分布,实现了从严格效用最大化到有界理性行为的过渡。该模型使用策略梯度来学习行为,并在多个实例中证明了在常见代理设置下具有显著改进的预测能力。

多智能体强化学习学习和校准异质有界理性市场行为

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-01T00:00:00Z

该研究提出了一种名为PPO的新的增强学习策略梯度方法,可实现多个小批量更新周期,表现优于其他在线策略梯度方法。同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

自动驾驶车辆的强化学习策略的定量与定性评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-15T00:00:00Z

该研究提出了一种新的策略梯度和演员-评论家算法,用于解决连续时间强化学习中的平均场控制问题。该方法利用值函数的梯度表示,采用参数化的随机策略。演员和评论家的学习通过动量神经网络函数在概率测度的Wasserstein空间上实现。数值结果包括多维设置和具有可控波动性的非线性二次平均场控制问题。

使用矩阵神经网络的均场控制的演员评价学习算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-08T00:00:00Z
基于动作依赖的分解基线的策略梯度方差降低

本文提出了一种无偏的动作依赖基线,以降低深度强化学习中策略梯度方法的高方差问题。该方法利用随机策略的结构,适用于长时间跨度和高维动作空间,实验表明其能加速学习,适合高维控制问题,并可扩展至部分观察和多智能体任务。

基于动作依赖的分解基线的策略梯度方差降低

OpenAI
OpenAI · 2018-03-20T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码