Blog on Qwen ·

GSPO：迈向持续拓展的语言模型强化学习

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

本文提出了一种新型强化学习算法Group Sequence Policy Optimization (GSPO)，旨在提升语言模型的训练稳定性和效率。与传统算法GRPO相比，GSPO在混合专家模型中表现出更高的效率和稳定性，通过序列级别的优化简化了训练过程，减少了对复杂策略的依赖，从而提升了Qwen3模型的性能。

🎯

关键要点

提出了一种新型强化学习算法Group Sequence Policy Optimization (GSPO)，旨在提升语言模型的训练稳定性和效率。
GSPO在混合专家模型中表现出更高的效率和稳定性，简化了训练过程，减少了对复杂策略的依赖。
GSPO定义了序列级别的重要性比率，并在序列层面执行裁剪、奖励和优化。
GSPO具备显著更高的训练效率，能够通过增加计算获得持续的性能提升。
GSPO能够保持稳定的训练过程，根本性解决了混合专家模型的训练稳定性问题。
GSPO对精度容忍度更高，简化了强化学习基础设施。
实验结果显示，GSPO在同等计算开销下表现出比GRPO更高的训练效率。
GSPO裁剪的token比例比GRPO高两个数量级，但训练效率更高，表明GSPO的优化目标更有效。
GSPO消除了对Routing Replay的依赖，简化和稳定了训练过程。
GSPO使得直接使用推理引擎返回的似然进行优化成为可能，特别适用于多轮RL和训推分离框架等场景。
GSPO为最新Qwen3模型的卓越性能奠定了算法基础，推动了强化学习的边界。

❓

延伸问答

GSPO算法的主要目标是什么？

GSPO算法旨在提升语言模型的训练稳定性和效率。

GSPO与传统的GRPO算法相比有哪些优势？

GSPO在训练效率和稳定性方面表现更好，简化了训练过程，减少了对复杂策略的依赖。

GSPO如何提高训练效率？

GSPO通过序列级别的优化和高效的裁剪机制，显著提高了训练效率。

GSPO在处理混合专家模型时有什么特别之处？

GSPO能够根本性地解决混合专家模型的训练稳定性问题，消除了对Routing Replay的依赖。

GSPO的优化目标是什么？

GSPO的优化目标是基于序列级别的似然进行优化，关注序列的整体表现。

GSPO对Qwen3模型的性能有什么影响？

GSPO为Qwen3模型的卓越性能奠定了算法基础，推动了强化学习的边界。

🏷️

继续阅读

教你薅token：构建agent无关的AI工作流
目前使用AI的主要痛点是高昂的账单。用户可以通过维护良好的文档来优化使用流程，减少对高价Agent的依赖。合理利用免费资源可以节省开支，维护好文档有助于降...
Claude Code动态工作流完全指南
本文介绍了Claude Code的动态工作流功能，旨在提高复杂任务的效率。动态工作流支持同时处理多个任务，避免效率低下和目标偏离。文章详细描述了七种工作流...
Frontier Tuning：教AI像您一样工作
微软在Build大会上推出了Frontier Tuning，这是一种通过强化学习使AI适应企业数据和流程的新方法。该系统在合规边界内运行，能够根据企业的独...
Visual Studio Code 1.123
Visual Studio Code 1.123版本更新了多个功能，包括在Agents窗口中继续聊天、集成浏览器区域截图和支持仅发送附件的请求。修复了Py...
亚马逊的搜索栏将生成无法购买的AI生成产品
亚马逊更新了搜索栏，用户可以根据描述查看AI生成的服装和家居商品图片，帮助用户在记不清具体名称时找到所需商品。该功能将于安卓和iOS应用上线。
游记-千岛湖
千岛湖是杭州附近的美丽旅游胜地，以清澈的湖水和众多小岛著称。游客可以享受自然风光，进行水上活动，体验宁静的环境。