小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文讨论了PPO中的clip和penalty机制,强调其在强化学习中的重要性。clip限制策略更新幅度,确保重要性采样有效,避免策略偏离;penalty通过引入KL惩罚,平衡奖励与维持现状的关系。两者共同提升了策略更新的稳定性和效率。

对 PPO-clip/penalty 一种理解

学习让我快乐
学习让我快乐 · 2026-02-16T16:00:00Z
RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

DeepSeek-R1展示了强化学习(RLHF)在大模型推理中的重要性,挑战了传统观念。通过去除Critic和采用组内统计方法,提升了训练效率,推动了RL后训练的变革,未来将向自我验证循环发展。

RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源
逐水寻源 · 2025-11-28T14:00:22Z
FPO——流匹配策略梯度:避开复杂的对数似然计算,通过「最大化基于CFM损失计算优势加权比率」做策略优化,兼容PPO-CLIP

本文讨论了流策略优化(FPO)在强化学习中的应用,强调其通过条件流匹配损失替代传统高斯似然损失,从而提高策略表达能力。FPO有效处理多峰决策问题,适用于复杂任务,如机器人控制,并通过优化证据下界(ELBO)简化计算过程,提升学习效率。

FPO——流匹配策略梯度:避开复杂的对数似然计算,通过「最大化基于CFM损失计算优势加权比率」做策略优化,兼容PPO-CLIP

结构之法 算法之道
结构之法 算法之道 · 2025-11-25T09:59:55Z
rsl_rl——人形运控部署框架汇总:从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)

本文讨论了人形机器人控制中的强化学习框架rsl_rl,重点介绍了其核心组件和算法实现,包括PPO(近端策略优化)和Actor-Critic模型。rsl_rl支持多种输入数据,适用于不同的机器人控制任务,并结合了unitree_rl_gym等开源项目,提供了丰富的代码资源和部署方案。

rsl_rl——人形运控部署框架汇总:从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)

结构之法 算法之道
结构之法 算法之道 · 2025-11-01T16:18:25Z

RL_Matrix是一个为.NET开发者设计的强化学习框架,基于TorchSharp,支持多种算法(如DQN、PPO),具备高性能和类型安全,适合游戏和工业应用,能有效减少实验迭代次数,提高开发效率。

C# 的深度强化学习框架RL_Matrix

dotNET跨平台
dotNET跨平台 · 2025-07-05T00:01:39Z

RL_Matrix 是一个为 .NET 开发者设计的强化学习框架,基于 TorchSharp,支持多种算法(如 DQN、PPO),具备高性能和类型安全,适合游戏开发和机器人控制,优化了开发效率和实时决策。

C# 的深度强化学习框架RL_Matrix - 张善友

张善友
张善友 · 2025-07-03T09:53:00Z

机器之心数据服务已上线,提供高效稳定的数据获取,简化爬取流程。

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

机器之心
机器之心 · 2025-06-22T12:22:41Z

本文研究了近端策略优化(PPO)中的优势估计不稳定性,提出了动态非线性缩放自适应调制优势估计方法AM-PPO,显著改善了奖励轨迹,促进了学习过程,减少了剪裁需求,具有广泛的应用潜力。

AM-PPO: Advantage-Based Alpha Modulation and Proximal Policy Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种去中心化分布式近端策略优化(DD-PPO)算法,旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性,优于传统调度方法和现有强化学习调度技术。

面向高性能计算调度的去中心化分布式近端策略优化(DD-PPO)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z
强化学习战胜随机性:适用于不可预测世界的双重评论PPO

PD-PPO是一种新型强化学习方法,适用于随机变量环境。它结合双重评论网络与PPO架构,能更有效应对不确定性,尤其在高随机性环境中优于传统方法。

强化学习战胜随机性:适用于不可预测世界的双重评论PPO

DEV Community
DEV Community · 2025-04-13T06:38:04Z
出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了

研究表明,DeepSeek-R1 的核心算法 GRPO 对推理模型并不重要。使用普通 PPO 和简单奖励函数即可提升推理性能,开发的开源项目 Open-Reasoner-Zero 表现优于 DeepSeek-R1-Zero,且训练效率更高。

出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了

机器之心
机器之心 · 2025-02-21T05:35:28Z

本文介绍了Open R1项目的开源内容,包括GRPO算法实现、数据生成器和训练代码。Open R1复现了R1的训练流程,并提供了OpenR1-Math-220k数据集,以提升数学推理能力。通过详细的数据生成、过滤和评估过程,Open R1团队确保了数据的高质量和准确性。

R1-Zero与R1的复现之路——从Open-Reasoner-Zero到Open R1:先后涉及规则奖励下的PPO迭代,及SFT+GRPO的复现

结构之法 算法之道
结构之法 算法之道 · 2025-02-17T09:29:26Z
为Cartpole-v1实现PPO

在上一篇文章中,我为国际象棋机器人实现了DQN模型,并接着实现了PPO以评估性能。PPO通过优势函数训练代理模型的最佳动作,关键在于使用随机动作而非最大概率动作,并采用广义优势估计(GAE)来减少偏差。最终实现可在Kaggle上查看。

为Cartpole-v1实现PPO

DEV Community
DEV Community · 2025-01-24T17:31:43Z
人工智能在幻想体育中胜过人类:深度学习系统显示团队选择提高15%

这项研究探讨了深度强化学习在幻想体育团队选择中的应用。结果显示,使用DQN和PPO算法的团队选择比基线方法提高了15%。该方法在多个幻想体育平台上测试,证明了其在不同体育和联赛格式中的可扩展性。

人工智能在幻想体育中胜过人类:深度学习系统显示团队选择提高15%

DEV Community
DEV Community · 2024-12-31T10:08:46Z

现有的局部动态路径规划算法在大型和中型固定翼飞机地形跟随/避让及动态障碍物避让中未能满足实时性能、远程规划和动态约束的要求。本文提出了一种基于运动动态RRT的流体场-PPO算法,通过重新设计算法的动作和状态空间,建立了飞机动态模型,并设计了状态转移过程,最终实验证明该算法可以在不需先前全局规划的情况下,完成符合动态约束的无碰撞轨迹的远程飞行任务。

基于运动动态RRT的流体场- PPO动态地形跟随/避免的路径规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-28T00:00:00Z

强化学习通过试错和反馈帮助智能体学习最佳策略。以婴儿爬行为为例,智能体在环境中调整行为以获得奖励。常见方法有Q-learning、DQN、策略梯度和PPO,适用于不同的学习方式和稳定性。强化学习广泛应用于自动驾驶和机器人等领域。

用婴儿爬行理解强化学习:从Q-learning到PPO - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2024-12-10T02:41:00Z

本研究提出了一种递归PPO模型,旨在解决多无人机协作不足的问题,能够在无GNSS/GPS信号环境中有效定位目标。单无人机模型的准确率为93%,双无人机模型为86%,且双无人机模型所需步骤更少,显示出在复杂环境中高效定位的潜力。

A Scalable Decentralized Reinforcement Learning Framework for UAV Target Localization Using Recurrent PPO

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了SmartBSP自我监督学习框架,结合PPO和CNN,旨在解决自主机器人在复杂环境中的路径规划与障碍物避免问题,实验结果表明其具有良好的适应性。

Path Planning and Obstacle Avoidance Based on Self-Supervised Learning: Using PPO and B-Splines in Unknown Environments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究提出了一种基于逆向PPO的轻量级深度强化学习方法,用于固定翼无人机在未知低空环境中的障碍物避免。该系统通过单帧图像实现实时检测,展现出优于现有方法的飞行轨迹平滑性和障碍物避免效率,适合边缘计算设备实施。

Monocular Obstacle Avoidance System for Fixed-wing UAVs Based on Inverse PPO

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z
ORPO、DPO与PPO:为人类偏好优化模型

在大型语言模型(LLM)中,优化响应以符合人类偏好至关重要。DPO(直接偏好优化)、ORPO(赔率比偏好优化)和PPO(近端策略优化)是三种关键技术,旨在提升用户体验。DPO通过分类损失直接优化响应,ORPO结合指令调优与偏好对齐,而PPO确保训练过程的稳定性。这些方法帮助生成更符合用户期望的响应。

ORPO、DPO与PPO:为人类偏好优化模型

DEV Community
DEV Community · 2024-11-08T11:37:24Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码