本研究提出了一种新颖的离线强化学习算法——直接优势策略优化(DAPO),旨在解决大语言模型推理中的稀疏奖励和不稳定性问题。通过引入评价函数,DAPO能够有效优化生成策略,显著提升数学和代码处理能力。
完成下面两步后,将自动完成登录并继续当前操作。