本文探讨了使用Qwen2.5-0.5B-Instruct模型结合MMLUPro、MELD和MATH数据集的任务。研究发现,格式奖励显著提升模型表现,而准确性奖励波动较大,表明模型仅模仿格式,未真正掌握思考能力。分析认为,可能是模型尺寸过小或奖励函数设置不当所致。
完成下面两步后,将自动完成登录并继续当前操作。