量子位 ·

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

香港大学、字节跳动Seed和复旦大学联合推出的Polaris方法，通过700步强化学习训练，使4B模型在数学推理能力上超越多款商业大模型，特别是在长文本生成方面表现突出。该方法强调动态调整训练数据和超参数，提升了模型的多样性和准确性。

🎯

关键要点

香港大学、字节跳动Seed和复旦大学联合推出Polaris方法，通过700步强化学习训练，4B模型在数学推理能力上超越多款商业大模型。
Polaris方法强调动态调整训练数据和超参数，提升模型的多样性和准确性。
Polaris通过Scaling RL让4B模型在数学推理任务上接近235B版本的表现。
训练数据构造中，Polaris团队发现不同能力基模型对同一数据的难度分布呈现镜像化特征。
Polaris提出构建轻微偏向难题的数据分布，避免过度偏向简单或难题。
在RL训练中，多样性被视为提升模型表现的重要因素，Polaris通过动态调整采样温度来控制多样性。
Polaris团队发现采样温度与模型性能和多样性之间存在平衡关系，理想温度需针对待训练模型精细校准。
Polaris采用多阶段训练方式，逐步增加上下文窗口长度以拓宽模型推理能力。
通过引入长度外推技术，Polaris提升了长文本生成能力，准确率由26%提升至超过50%。
Polaris模型在AIME24和AIME25评测中表现最佳，数学推理能力显著超越其他商业大模型。

🏷️

继续阅读

OpenClaw创始人建议用户不要使用小模型跑高风险任务因为提示词注入防护非常弱
OpenClaw创始人建议用户避免在高风险任务中使用小模型或旧模型，因为这些模型的提示词注入防护较弱，存在安全隐患。用户应选择最新、指令对齐更强的模型，并...
早报｜小米发布手机版龙虾/M5 Max跑分曝光：或登顶Mac性能榜/魏建军就魏牌海报抄袭道歉
M5 Max芯片的早期跑分显示其单核和多核性能超越前代，可能成为Mac性能之最。甲骨文因AI数据中心扩张面临现金流压力，计划裁员数千人。苹果MacBook...
文章：读-复制-更新（RCU）：无锁性能的秘密
RCU（读-复制-更新）通过消除读取路径中的锁开销，实现比传统锁高出十到三十倍的读取性能，适用于读多写少的场景。其三阶段模式允许读者无锁访问数据，写者则复...
如何开发一款 AI 数学辅导应用程序
AI数学辅导应用通过个性化学习帮助学生克服数学焦虑，实时识别薄弱环节，提供逐步解题指导和即时反馈。预计到2033年市场规模将达41亿美元，显著提升学习效果。
布鲁斯·莫姆贾恩：新演讲
我一直想做关于预写日志（WAL）的演讲，随着Postgres对WAL功能的依赖增加，演讲内容逐渐丰富，最终形成了103张幻灯片。
NanoClaw可以将每个AI代理放入自己的Docker容器中，以应对OpenClaw的安全问题
机器人访问WhatsApp面临挑战。大多数OpenClaw用户使用WhatsApp，但没有商业账户无法创建新用户。WhatsApp连接依赖于Baileys...

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

内容提要

关键要点

标签

继续阅读