小红花·文摘

本研究提出了一种通过自我迭代反馈学习提升小型语言模型（SLMs）推理能力的方法。采用几率比优化和过程监督奖励，使SLMs利用自身生成的信号进行微调。实验结果表明，该方法显著提高了Gemma-2B在多个任务上的表现。