大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

CMU研究发现,数学能力强的大模型在其他领域的表现有限。只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能,而监督微调(SFT)可能导致负迁移。研究表明,微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。

🎯

关键要点

  • CMU研究发现,数学能力强的大模型在其他领域的表现有限。
  • 只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能。
  • 监督微调(SFT)可能导致负迁移,影响模型的迁移能力。
  • 微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。
  • 研究评估了20多个模型在数学推理和其他任务上的表现。
  • 迁移能力指标(Transferability Index,TI)用于量化模型的迁移能力。
  • 实验结果表明,微调方法、模型规模和架构影响迁移能力,微调方法是最关键的因素。
  • RL微调模型在表征空间上的偏移最小,保留了原有知识。
  • RL训练选择性地调整逻辑结构词条,而SFT可能损害泛化能力。
  • RL在LLM中的胜利预示着其在可迁移推理发展中的关键作用。
➡️

继续阅读