本文介绍了一种新型强化学习算法——群体序列策略优化(GSPO),旨在提升大型语言模型的训练稳定性和效率。GSPO通过基于序列概率定义重要性比率,解决了GRPO算法的稳定性问题,显著提高了Qwen3模型的性能。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
本文提出了一种新型强化学习算法Group Sequence Policy Optimization (GSPO),旨在提升语言模型的训练稳定性和效率。与传统算法GRPO相比,GSPO在混合专家模型中表现出更高的效率和稳定性,通过序列级别的优化简化了训练过程,减少了对复杂策略的依赖,从而提升了Qwen3模型的性能。
完成下面两步后,将自动完成登录并继续当前操作。