量子位 ·

小模型站起来了，浏览器里跑出SOTA，抱抱脸：快逃，合成数据不是未来

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

浏览器里能跑的SOTA小模型在2亿、5亿和20亿级别获胜。团队发现合成数据只在特定领域有用，真实数据潜力未完全发挥。团队开源了一个对标的大型合成数据集。使用经过严格过滤的网络数据后，性能直线上升。合成数据还是比不过真实数据。小模型也要在数万亿token上训练。最终发布的系列模型适合各种设备。对齐和微调技术对小模型效果不理想。

🎯

关键要点

浏览器里能跑的SOTA小模型在2亿、5亿和20亿级别获胜。
合成数据目前只在特定领域有用，真实数据的潜力未完全发挥。
团队开源了一个对标的大型合成数据集。
使用经过严格过滤的网络数据后，模型性能显著提升。
合成数据的效果仍然低于真实数据。
小模型也需要在数万亿tokens上进行训练。
数据退火技术在训练中被证明有效。
最终发布的模型适合各种设备，内存占用较小。
过去的对齐和微调技术对小模型效果不理想，需重新设计任务。

❓

延伸问答

小模型在浏览器中表现如何？

小模型在2亿、5亿和20亿级别的测试中表现优异，获得了胜利。

合成数据在模型训练中的作用是什么？

合成数据目前只在特定领域有用，整体效果仍低于真实数据。

团队是如何提升模型性能的？

通过严格过滤网络数据并在此基础上进行训练，模型性能显著提升。

小模型需要多少数据进行训练？

即使是小模型也需要在数万亿tokens上进行训练，时间越长效果越好。

数据退火技术在训练中有什么效果？

数据退火技术被证明有效，可以在训练最后阶段保留高质量数据。

过去的对齐和微调技术对小模型的效果如何？

这些技术对小模型效果不理想，需要重新设计任务。

🏷️

继续阅读

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
Brave浏览器推出官方去广告版售价59.99美元(买断) 可禁用内置的各类广告功能
Brave 浏览器推出付费精简版 Origin，售价 59.99 美元，去除广告和盈利功能，支持最多 10 台设备同步。Linux 用户可免费使用，但在其...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
首尔的目标：NVIDIA与韩国如何共同构建AI的未来
NVIDIA创始人兼首席执行官黄仁勋访问韩国，强调AI供应链的重要性，并指出韩国在机器人和物理AI领域的潜力。他认为韩国是AI和游戏的中心，未来将有更多投资机会。
流媒体的未来：要么拿出保证，要么我不买账
流媒体正在改变视频广告购买方式，通过数据分析和AI技术优化广告投放，确保品牌投资的有效性。出版商需证明内容价值以获得更高定价，市场需要机制区分有效库存，A...