机器之心 ·

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

清华 AIR 和字节的 SIA Lab 发布了开源强化学习系统 DAPO，显著提升了大语言模型的训练效率。与 GRPO 相比，DAPO 在 AIME 2024 基准测试中表现更佳，训练步数减少了50%。该系统通过动态采样和奖励建模等新技术，解决了熵崩溃等问题，推动了模型推理能力的发展。

🎯

❓

DAPO算法显著提升了大语言模型的训练效率，训练步数减少了50%，并在AIME 2024基准测试中表现优于GRPO。

DAPO通过动态采样和奖励建模等新技术解决了熵崩溃、奖励噪音和训练不稳定等问题。

使用DAPO训练的Qwen2.5-32B模型在AIME 2024基准上获得了50分，优于DeepSeek-R1-Zero-Qwen-32B。

GRPO面临熵崩溃、奖励噪音和训练不稳定等问题，影响了其性能。

动态采样策略过滤掉准确率为0或1的提示，保持有效梯度的样本数量，从而提高训练效率。

Clip-Higher策略通过限制信任区域，增强了策略的熵，从而提高了模型的多样性和稳定性。

🏷️

Cursor以更低的价格推出Composer 2.5和Kimi K2.5，押注于编码领域
Cursor公司发布了Composer 2.5，显著提升了编码任务和训练效率。尽管基准测试表现优于前代产品，实际应用效果仍需验证。Composer 2.5...
深度求索回应发送时DeepSeek返回异常回复属于模型特性幻觉不涉及隐私泄露
深度求索（DeepSeek）回应用户反馈，表示输入特殊字符<think>时模型返回无关内容，属于模型幻觉，不涉及隐私泄露。技术团队已修复此问题...
可能出现重大安全漏洞：开源内容管理框架Drupal将在5月20日发布核心安全更新
开源内容管理框架Drupal发布紧急安全通知，将于2026年5月20日发布核心安全更新，修复多个重大漏洞。所有管理员需预留时间进行升级，特别是受支持的版本...
华为鸿蒙逼迫贡献者归档，亲自断送开源生态！
华为因未妥善处理与开源项目Avalonia的合作，导致开发者布布将其项目存档并停止维护。华为在谈判后将设计方案交给外包商，未支付相应费用，损害了开源生态的...
模型人人都能用，什么才是你能带走的？我的答案是一个可进化的Skill库
模型人人都能用，什么才是你能带走的？我的答案是一个可进化的SKILL库