GRPO踩坑记录2

GRPO踩坑记录2

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

本文探讨了使用Qwen2.5-0.5B-Instruct模型结合MMLUPro、MELD和MATH数据集的任务。研究发现,格式奖励显著提升模型表现,而准确性奖励波动较大,表明模型仅模仿格式,未真正掌握思考能力。分析认为,可能是模型尺寸过小或奖励函数设置不当所致。

🎯

关键要点

  • 本文探讨了使用Qwen2.5-0.5B-Instruct模型结合MMLUPro、MELD和MATH数据集的任务。

  • 研究发现,格式奖励显著提升模型表现,而准确性奖励波动较大。

  • 模型仅模仿格式,未真正掌握思考能力。

  • 奖励函数分为格式奖励和准确性奖励。

  • 格式奖励经历显著提升,而准确性奖励没有明显上升趋势。

  • 模型在解决问题时只是拙劣地模仿格式,没有学会真正的思考。

  • 分析认为,模型表现不佳可能是由于模型尺寸过小或奖励函数设置不当。

延伸问答

Qwen2.5-0.5B-Instruct模型的主要任务是什么?

该模型结合了MMLUPro、MELD和MATH三个数据集进行任务。

格式奖励和准确性奖励有什么区别?

格式奖励用于检测输出是否符合指定格式,而准确性奖励用于检测输出的准确性。

研究发现格式奖励对模型表现有什么影响?

研究发现格式奖励显著提升了模型的表现。

模型在解决问题时表现如何?

模型仅通过模仿格式来提高得分,未真正掌握思考能力。

为什么模型的准确性奖励波动较大?

准确性奖励波动较大可能是因为模型未能通过思考来提升任务性能。

模型表现不佳的可能原因是什么?

可能原因包括模型尺寸过小或奖励函数设置不当。

➡️

继续阅读