小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本报告探讨OpenClaw体系下Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练门槛,实现训练自动化,并提升Agent的任务性能。

【Triton 教程】triton_language.erf

HyperAI超神经
HyperAI超神经 · 2026-03-24T06:36:07Z

本报告探讨OpenClaw体系中Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练的门槛,实现自然语言驱动的训练自动化。

【Triton 教程】triton_language.cdiv

HyperAI超神经
HyperAI超神经 · 2026-02-09T03:14:16Z
揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷

AI Shortlist 是一个专注于人工智能的主题平台,提供最新的技术、应用和发展趋势,帮助用户了解AI的潜力与影响。

揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷

机器之心
机器之心 · 2026-01-30T09:37:20Z

本报告探讨OpenClaw体系中Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练的门槛,实现自然语言驱动的自动化训练。

最高可得 $200!HyperAI 内测招募正式开启!

HyperAI超神经
HyperAI超神经 · 2026-01-15T08:40:50Z
英特尔DeepMath推出智能架构,提高大型语言模型的数学能力

英特尔推出了DeepMath,一个基于Qwen3-Thinking的轻量级数学问题解决代理。它通过生成小型Python脚本来增强数学推理,减少错误和输出长度。DeepMath在多个数据集上表现优异,使用GRPO训练提高准确性,并在沙箱环境中安全执行代码。该工具已在GitHub和Hugging Face上发布。

英特尔DeepMath推出智能架构,提高大型语言模型的数学能力

InfoQ
InfoQ · 2026-01-05T21:00:00Z

本报告探讨OpenClaw体系中Agent的强化学习训练方法,重点分析RFT与GRPO的训练流程,旨在降低强化学习训练的门槛,实现自然语言驱动的训练自动化。

【Triton 教程】triton_language.view

HyperAI超神经
HyperAI超神经 · 2025-12-17T08:46:28Z
RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

DeepSeek-R1展示了强化学习(RLHF)在大模型推理中的重要性,挑战了传统观念。通过去除Critic和采用组内统计方法,提升了训练效率,推动了RL后训练的变革,未来将向自我验证循环发展。

RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源
逐水寻源 · 2025-11-28T14:00:22Z

研究表明,在多模态大模型训练中,样本难度比训练范式更为重要。中兴通讯团队首次通过GRPO-only方法,在视觉推理和感知任务中超越传统的SFT+RL范式,提出了PISM和CMAB两种难度量化策略,显著提升了模型性能,验证了难度感知采样的有效性。

精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

量子位
量子位 · 2025-11-28T04:16:50Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

机器之心
机器之心 · 2025-09-01T03:33:06Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

机器之心
机器之心 · 2025-08-14T05:18:46Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO

机器之心
机器之心 · 2025-08-07T13:46:57Z

机器之心数据服务正式上线,提供高效稳定的数据获取,简化数据爬取流程。

苹果出手!改进GRPO,让dLLM也能高效强化学习

机器之心
机器之心 · 2025-06-27T05:18:18Z

机器之心数据服务已上线,提供高效稳定的数据获取,简化爬取流程。

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

机器之心
机器之心 · 2025-06-22T12:22:41Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

机器之心
机器之心 · 2025-06-19T12:12:10Z
GRPO到底是什么?

GRPO(群体相对策略优化)是一种强化学习方法,旨在提升大型语言模型(LLMs)的表现。通过观察其他模型的回答并奖励准确一致的回复,GRPO改善了模型在复杂对话中的表现,帮助其更好地理解上下文并生成可靠的回答。

GRPO到底是什么?

KDnuggets
KDnuggets · 2025-06-05T14:00:43Z
LLMs与传统计算机技术的区别

传统计算机技术具有确定性,而当前的LLMs在解决问题时有时不够准确。基于强化学习的方法如DPO和GRPO通过挖掘特定logits来提升LLMs的质量,尤其是在数学和编程领域。创建足够的测试用例并设置自动测试流程至关重要。

LLMs与传统计算机技术的区别

informal
informal · 2025-05-24T16:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化爬取流程。

DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文

机器之心
机器之心 · 2025-05-24T06:00:03Z
GRPO

深度学习训练速度主要受内存瓶颈和计算瓶颈的限制,前者是内存访问时间,后者是计算时间。

GRPO

informal
informal · 2025-05-19T16:00:00Z

本研究探讨了大语言模型后训练中强化学习的结构假设,指出将其视为马尔可夫决策过程的简化假设存在问题,并发现迭代监督细调方法的性能与基于GRPO的训练相当。

名义上的强化学习?分析大语言模型后训练中的结构假设

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种新颖的强化学习方法——序列组衰减奖励策略优化(S-GRPO),旨在解决推理模型中的冗余问题。该方法通过选择多个时间点判断推理步骤的充分性,实现早期退出,从而缩短序列长度并提高准确性。

S-GRPO: Achieving Early Exit in Reasoning Models through Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码