小模型站起来了,浏览器里跑出SOTA,抱抱脸:快逃,合成数据不是未来

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

浏览器里能跑的SOTA小模型在2亿、5亿和20亿级别获胜。团队发现合成数据只在特定领域有用,真实数据潜力未完全发挥。团队开源了一个对标的大型合成数据集。使用经过严格过滤的网络数据后,性能直线上升。合成数据还是比不过真实数据。小模型也要在数万亿token上训练。最终发布的系列模型适合各种设备。对齐和微调技术对小模型效果不理想。

🎯

关键要点

  • 浏览器里能跑的SOTA小模型在2亿、5亿和20亿级别获胜。
  • 合成数据目前只在特定领域有用,真实数据的潜力未完全发挥。
  • 团队开源了一个对标的大型合成数据集。
  • 使用经过严格过滤的网络数据后,模型性能显著提升。
  • 合成数据的效果仍然低于真实数据。
  • 小模型也需要在数万亿tokens上进行训练。
  • 数据退火技术在训练中被证明有效。
  • 最终发布的模型适合各种设备,内存占用较小。
  • 过去的对齐和微调技术对小模型效果不理想,需重新设计任务。

延伸问答

小模型在浏览器中表现如何?

小模型在2亿、5亿和20亿级别的测试中表现优异,获得了胜利。

合成数据在模型训练中的作用是什么?

合成数据目前只在特定领域有用,整体效果仍低于真实数据。

团队是如何提升模型性能的?

通过严格过滤网络数据并在此基础上进行训练,模型性能显著提升。

小模型需要多少数据进行训练?

即使是小模型也需要在数万亿tokens上进行训练,时间越长效果越好。

数据退火技术在训练中有什么效果?

数据退火技术被证明有效,可以在训练最后阶段保留高质量数据。

过去的对齐和微调技术对小模型的效果如何?

这些技术对小模型效果不理想,需要重新设计任务。

➡️

继续阅读