4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

💡 原文中文,约4100字,阅读约需10分钟。
📝

内容提要

香港大学、字节跳动Seed和复旦大学联合推出的Polaris方法,通过700步强化学习训练,使4B模型在数学推理能力上超越多款商业大模型,特别是在长文本生成方面表现突出。该方法强调动态调整训练数据和超参数,提升了模型的多样性和准确性。

🎯

关键要点

  • 香港大学、字节跳动Seed和复旦大学联合推出Polaris方法,通过700步强化学习训练,4B模型在数学推理能力上超越多款商业大模型。
  • Polaris方法强调动态调整训练数据和超参数,提升模型的多样性和准确性。
  • Polaris通过Scaling RL让4B模型在数学推理任务上接近235B版本的表现。
  • 训练数据构造中,Polaris团队发现不同能力基模型对同一数据的难度分布呈现镜像化特征。
  • Polaris提出构建轻微偏向难题的数据分布,避免过度偏向简单或难题。
  • 在RL训练中,多样性被视为提升模型表现的重要因素,Polaris通过动态调整采样温度来控制多样性。
  • Polaris团队发现采样温度与模型性能和多样性之间存在平衡关系,理想温度需针对待训练模型精细校准。
  • Polaris采用多阶段训练方式,逐步增加上下文窗口长度以拓宽模型推理能力。
  • 通过引入长度外推技术,Polaris提升了长文本生成能力,准确率由26%提升至超过50%。
  • Polaris模型在AIME24和AIME25评测中表现最佳,数学推理能力显著超越其他商业大模型。
➡️

继续阅读