小红花·文摘

本研究提出了GVM-RAFT动态样本分配策略，以解决大语言模型中链式思维推理训练的梯度估计效率低下问题。该方法在数学推理实验中实现了2-4倍的速度提升和显著的准确性改进，展示了在强化学习中的应用潜力。