通过自我迭代过程反馈学习推理的小型语言模型

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究通过自我迭代反馈学习提升小型语言模型(SLMs)的推理能力,采用几率比优化和过程监督奖励的方法,实验结果显示该方法显著提升了Gemma-2B在多个任务上的表现。

🎯

关键要点

  • 本研究针对小型语言模型(SLMs)在推理能力方面的不足。
  • 通过自我迭代反馈学习提升SLMs的推理能力。
  • 采用几率比优化(ORPO)和过程监督奖励的方法。
  • SLMs能够利用自身生成的正负信号进行微调和对齐。
  • 实验结果显示该方法显著提高了Gemma-2B在GSM8K和MBPP上的性能。
  • 在MMLU_Math和HumanEval上展示了优越的领域外泛化能力。
➡️

继续阅读