4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦 一种用在高级推理模型上Scaling RL的后训练方法 香港大学、字节跳动Seed和复旦大学联合推出的Polaris方法,通过700步强化学习训练,使4B模型在数学推理能力上超越多款商业大模型,特别是在长文本生成方面表现突出。该方法强调动态调整训练数据和超参数,提升了模型的多样性和准确性。 Polaris方法 claude 小模型 强化学习 数学推理 模型准确性 长文本生成