小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种组方差策略优化（GVPO）方法，以解决后训练中的不稳定性问题，确保奖励最大化与最优策略的一致性，从而提供可靠且灵活的后训练范式。

GVPO: Group Variance Policy Optimization for Post-Training of Large Language Models

BriefGPT - AI 论文速递 ·