Small Language Models Learning to Reason via Self-Iterative Process Feedback
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种通过自我迭代反馈学习提升小型语言模型(SLMs)推理能力的方法。采用几率比优化和过程监督奖励,使SLMs利用自身生成的信号进行微调。实验结果表明,该方法显著提高了Gemma-2B在多个任务上的表现。
🎯
关键要点
- 本研究提出了一种通过自我迭代反馈学习提升小型语言模型(SLMs)推理能力的方法。
- 采用几率比优化(ORPO)和过程监督奖励,使SLMs利用自身生成的信号进行微调和对齐。
- 实验结果表明,该方法显著提高了Gemma-2B在GSM8K和MBPP上的性能。
- 在MMLU_Math和HumanEval上,该方法展示了优越的领域外泛化能力。
➡️