超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

💡 原文中文,约4800字,阅读约需12分钟。
📝

内容提要

清华 AIR 和字节的 SIA Lab 发布了开源强化学习系统 DAPO,显著提升了大语言模型的训练效率。与 GRPO 相比,DAPO 在 AIME 2024 基准测试中表现更佳,训练步数减少了50%。该系统通过动态采样和奖励建模等新技术,解决了熵崩溃等问题,推动了模型推理能力的发展。

🎯

关键要点

  • 清华 AIR 和字节的 SIA Lab 发布了开源强化学习系统 DAPO,提升了大语言模型的训练效率。
  • DAPO 在 AIME 2024 基准测试中表现优于 GRPO,训练步数减少了50%。
  • 使用 DAPO 训练的 Qwen2.5-32B 模型在 AIME 2024 基准上获得了50分,优于 DeepSeek-R1-Zero-Qwen-32B。
  • GRPO 面临熵崩溃、奖励噪音和训练不稳定等问题,影响了其性能。
  • DAPO 通过动态采样和奖励建模等新技术解决了这些问题,推动了模型推理能力的发展。
  • PPO 引入裁剪式替代目标以提高训练稳定性和样本效率。
  • GRPO 通过群组级奖励归一化计算优势,消除了价值函数。
  • DAPO 采用解耦剪辑和动态采样策略优化,提升了模型的多样性和训练效率。
  • 研究者提出了 Clip-Higher 策略以解决熵崩溃问题,增强了 RL 的稳定性。
  • 动态采样策略过滤掉准确率为0或1的提示,保持有效梯度的样本数量。
  • Token 级策略梯度损失增强了训练稳定性,避免了长回复中的低质量模式。
  • 过长的奖励塑造机制通过惩罚过长响应来稳定训练并提高性能。
  • DAPO 训练的 Qwen-32B 模型在 AIME 2024 上表现优异,准确度稳步提升。
  • 训练动态分析显示生成响应的长度与训练稳定性和性能密切相关。
  • 研究者观察到 Actor 模型的推理模式随着训练动态演化,显示出适应性和探索能力。

延伸问答

DAPO算法的主要优势是什么?

DAPO算法显著提升了大语言模型的训练效率,训练步数减少了50%,并在AIME 2024基准测试中表现优于GRPO。

DAPO如何解决GRPO面临的问题?

DAPO通过动态采样和奖励建模等新技术解决了熵崩溃、奖励噪音和训练不稳定等问题。

使用DAPO训练的模型在AIME 2024基准上表现如何?

使用DAPO训练的Qwen2.5-32B模型在AIME 2024基准上获得了50分,优于DeepSeek-R1-Zero-Qwen-32B。

GRPO算法的主要缺陷是什么?

GRPO面临熵崩溃、奖励噪音和训练不稳定等问题,影响了其性能。

动态采样策略在DAPO中有什么作用?

动态采样策略过滤掉准确率为0或1的提示,保持有效梯度的样本数量,从而提高训练效率。

Clip-Higher策略如何增强RL的稳定性?

Clip-Higher策略通过限制信任区域,增强了策略的熵,从而提高了模型的多样性和稳定性。

➡️

继续阅读