这篇研究论文介绍了一种名为SCoRe的新的强化学习方法,可以显著提高大型语言模型(LLMs)的自我纠正能力,仅使用自己生成的数据。研究人员通过多步强化学习过程成功提高了两个不同LLMs的自我纠正性能。这项研究对于提高LLMs的自我纠正能力具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。