本研究提出了一种通过自我迭代反馈学习提升小型语言模型(SLMs)推理能力的方法。采用几率比优化和过程监督奖励,使SLMs利用自身生成的信号进行微调。实验结果表明,该方法显著提高了Gemma-2B在多个任务上的表现。
完成下面两步后,将自动完成登录并继续当前操作。