本研究通过自我迭代反馈学习提升小型语言模型(SLMs)的推理能力,采用几率比优化和过程监督奖励的方法,实验结果显示该方法显著提升了Gemma-2B在多个任务上的表现。
完成下面两步后,将自动完成登录并继续当前操作。