小红花·文摘

本文讨论了PPO中的clip和penalty机制，强调其在强化学习中的重要性。clip限制策略更新幅度，确保重要性采样有效，避免策略偏离；penalty通过引入KL惩罚，平衡奖励与维持现状的关系。两者共同提升了策略更新的稳定性和效率。

对 PPO-clip/penalty 一种理解

学习让我快乐 ·

RL 后训练进化论：从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源 ·

$FPO——流匹配策略梯度：避开复杂的对数似然计算，通过「最大化基于CFM损失计算优势加权比率」做策略优化，兼容PPO-CLIP$

FPO——流匹配策略梯度：避开复杂的对数似然计算，通过「最大化基于CFM损失计算优势加权比率」做策略优化，兼容PPO-CLIP

结构之法算法之道 ·

$rsl_rl——人形运控部署框架汇总：从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)$

rsl_rl——人形运控部署框架汇总：从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)

结构之法算法之道 ·

RL_Matrix是一个为.NET开发者设计的强化学习框架，基于TorchSharp，支持多种算法（如DQN、PPO），具备高性能和类型安全，适合游戏和工业应用，能有效减少实验迭代次数，提高开发效率。

C# 的深度强化学习框架RL_Matrix

dotNET跨平台 ·

RL_Matrix 是一个为 .NET 开发者设计的强化学习框架，基于 TorchSharp，支持多种算法（如 DQN、PPO），具备高性能和类型安全，适合游戏开发和机器人控制，优化了开发效率和实时决策。

C# 的深度强化学习框架RL_Matrix - 张善友

张善友 ·

机器之心数据服务已上线，提供高效稳定的数据获取，简化爬取流程。

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 ·

本文研究了近端策略优化（PPO）中的优势估计不稳定性，提出了动态非线性缩放自适应调制优势估计方法AM-PPO，显著改善了奖励轨迹，促进了学习过程，减少了剪裁需求，具有广泛的应用潜力。

AM-PPO: Advantage-Based Alpha Modulation and Proximal Policy Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种去中心化分布式近端策略优化（DD-PPO）算法，旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性，优于传统调度方法和现有强化学习调度技术。

面向高性能计算调度的去中心化分布式近端策略优化（DD-PPO）

BriefGPT - AI 论文速递 ·

强化学习战胜随机性：适用于不可预测世界的双重评论PPO

DEV Community ·

出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就够了

机器之心 ·

本文介绍了Open R1项目的开源内容，包括GRPO算法实现、数据生成器和训练代码。Open R1复现了R1的训练流程，并提供了OpenR1-Math-220k数据集，以提升数学推理能力。通过详细的数据生成、过滤和评估过程，Open R1团队确保了数据的高质量和准确性。

R1-Zero与R1的复现之路——从Open-Reasoner-Zero到Open R1：先后涉及规则奖励下的PPO迭代，及SFT+GRPO的复现

结构之法算法之道 ·

为Cartpole-v1实现PPO

DEV Community ·

人工智能在幻想体育中胜过人类：深度学习系统显示团队选择提高15%

DEV Community ·

现有的局部动态路径规划算法在大型和中型固定翼飞机地形跟随/避让及动态障碍物避让中未能满足实时性能、远程规划和动态约束的要求。本文提出了一种基于运动动态RRT的流体场-PPO算法，通过重新设计算法的动作和状态空间，建立了飞机动态模型，并设计了状态转移过程，最终实验证明该算法可以在不需先前全局规划的情况下，完成符合动态约束的无碰撞轨迹的远程飞行任务。