小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了一种新型强化学习算法——群体序列策略优化（GSPO），旨在提升大型语言模型的训练稳定性和效率。GSPO通过基于序列概率定义重要性比率，解决了GRPO算法的稳定性问题，显著提高了Qwen3模型的性能。

一文通透GSPO——Qwen3所用的“群体序列策略优化”：摒弃token级别的off-policy校正，而在序列级别利用重要性权重进行优化

结构之法算法之道 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

机器之心 ·

GSPO：迈向持续拓展的语言模型强化学习

GSPO：迈向持续拓展的语言模型强化学习

Blog on Qwen ·