本文提出了一种新方法Reinforce-Rej,旨在解决大语言模型在复杂推理任务中的适应性不足问题。通过样本筛选,该方法提高了KL效率和稳定性,为基于奖励的后期训练提供了有效的替代方案。
完成下面两步后,将自动完成登录并继续当前操作。