小红花·文摘

本研究提出了一种新颖的离线强化学习算法——直接优势策略优化（DAPO），旨在解决大语言模型推理中的稀疏奖励和不稳定性问题。通过引入评价函数，DAPO能够有效优化生成策略，显著提升数学和代码处理能力。