小红花·文摘

本报告探讨OpenClaw体系下Agent的强化学习训练方法，重点分析RFT与GRPO的训练流程，旨在降低强化学习训练门槛，实现训练自动化，并提升Agent的任务性能。

【Triton 教程】triton_language.erf

HyperAI超神经 ·

本报告探讨OpenClaw体系中Agent的强化学习训练方法，重点分析RFT与GRPO的训练流程，旨在降低强化学习训练的门槛，实现自然语言驱动的训练自动化。

【Triton 教程】triton_language.cdiv

HyperAI超神经 ·

揭秘！RLVR/GRPO中那些长期被忽略的关键缺陷

机器之心 ·

本报告探讨OpenClaw体系中Agent的强化学习训练方法，重点分析RFT与GRPO的训练流程，旨在降低强化学习训练的门槛，实现自然语言驱动的自动化训练。

最高可得 $200！HyperAI 内测招募正式开启！

HyperAI超神经 ·

英特尔DeepMath推出智能架构，提高大型语言模型的数学能力

InfoQ ·

本报告探讨OpenClaw体系中Agent的强化学习训练方法，重点分析RFT与GRPO的训练流程，旨在降低强化学习训练的门槛，实现自然语言驱动的训练自动化。

【Triton 教程】triton_language.view

HyperAI超神经 ·

RL 后训练进化论：从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源 ·

研究表明，在多模态大模型训练中，样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法，在视觉推理和感知任务中超越传统的SFT+RL范式，提出了PISM和CMAB两种难度量化策略，显著提升了模型性能，验证了难度感知采样的有效性。

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

机器之心 ·

机器之心数据服务正式上线，提供高效稳定的数据获取，简化数据爬取流程。

苹果出手！改进GRPO，让dLLM也能高效强化学习

机器之心 ·

机器之心数据服务已上线，提供高效稳定的数据获取，简化爬取流程。

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

机器之心 ·

GRPO到底是什么？

KDnuggets ·

LLMs与传统计算机技术的区别

informal ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化爬取流程。

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

机器之心 ·

GRPO

informal ·

本研究探讨了大语言模型后训练中强化学习的结构假设，指出将其视为马尔可夫决策过程的简化假设存在问题，并发现迭代监督细调方法的性能与基于GRPO的训练相当。

名义上的强化学习？分析大语言模型后训练中的结构假设

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的强化学习方法——序列组衰减奖励策略优化（S-GRPO），旨在解决推理模型中的冗余问题。该方法通过选择多个时间点判断推理步骤的充分性，实现早期退出，从而缩短序列长度并提高准确性。

S-GRPO: Achieving Early Exit in Reasoning Models through Reinforcement Learning

BriefGPT - AI 论文速递 ·