大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
💡
原文中文,约1900字,阅读约需5分钟。
📝
内容提要
CMU研究发现,数学能力强的大模型在其他领域的表现有限。只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能,而监督微调(SFT)可能导致负迁移。研究表明,微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。
🎯
关键要点
- CMU研究发现,数学能力强的大模型在其他领域的表现有限。
- 只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能。
- 监督微调(SFT)可能导致负迁移,影响模型的迁移能力。
- 微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。
- 研究评估了20多个模型在数学推理和其他任务上的表现。
- 迁移能力指标(Transferability Index,TI)用于量化模型的迁移能力。
- 实验结果表明,微调方法、模型规模和架构影响迁移能力,微调方法是最关键的因素。
- RL微调模型在表征空间上的偏移最小,保留了原有知识。
- RL训练选择性地调整逻辑结构词条,而SFT可能损害泛化能力。
- RL在LLM中的胜利预示着其在可迁移推理发展中的关键作用。
➡️