Small Language Models Learning to Reason via Self-Iterative Process Feedback

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种通过自我迭代反馈学习提升小型语言模型(SLMs)推理能力的方法。采用几率比优化和过程监督奖励,使SLMs利用自身生成的信号进行微调。实验结果表明,该方法显著提高了Gemma-2B在多个任务上的表现。

🎯

关键要点

  • 本研究提出了一种通过自我迭代反馈学习提升小型语言模型(SLMs)推理能力的方法。
  • 采用几率比优化(ORPO)和过程监督奖励,使SLMs利用自身生成的信号进行微调和对齐。
  • 实验结果表明,该方法显著提高了Gemma-2B在GSM8K和MBPP上的性能。
  • 在MMLU_Math和HumanEval上,该方法展示了优越的领域外泛化能力。
➡️

继续阅读