小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限

小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

本文介绍了一种新型极简激活超级大脑模型,参数总数为142B,动态激活为14B,训练成本仅为Qwen2.5-72B的1/4。该模型在中文理解、数学推理和代码生成等任务中表现优异,并开源了训练过程,强调数据质量和系统创新的重要性。未来将探索稀疏注意力和模拟人类学习效率。

🎯

关键要点

  • 新型极简激活超级大脑模型,总参数142B,动态激活14B,训练成本仅为Qwen2.5-72B的1/4。

  • 模型在中文理解、数学推理和代码生成等任务中表现优异,开源训练过程。

  • 采用128路由专家和2个共享专家的MoE架构,保障路由稳定性。

  • 数据工程方面,使用11.2T高质量token,经过三阶段处理框架提升数据质量。

  • 训练基础设施优化,采用1F1B流水线调度和分组GEMM加速,内存效率优于DeepSeek。

  • 训练策略包括分段学习率和动态批大小,提升模型稳定性。

  • 模型在多个能力维度上超越或接近顶级模型,表现出色。

  • 开源训练进程,提供完整的训练动态观测窗口,助力社区研究。

  • 强调数据质量的重要性,优质数据显著提升模型性能。

  • 未来将探索稀疏注意力和模拟人类学习效率的方向。

延伸问答

小红书dots.llm1模型的总参数和动态激活参数是多少?

小红书dots.llm1模型的总参数为142B,动态激活参数为14B。

dots.llm1模型在训练成本上与Qwen2.5-72B相比如何?

dots.llm1模型的训练成本仅为Qwen2.5-72B的1/4。

该模型在中文理解和数学推理任务中的表现如何?

在中文理解任务中,模型得分为92.8,数学推理任务得分为33.1,表现优异。

dots.llm1模型采用了什么样的MoE架构?

该模型采用了128路由专家和2个共享专家的MoE架构。

数据质量在模型训练中有多重要?

数据质量显著提升模型性能,优质数据使小模型性能提升超过15%。

未来dots.llm1模型的研究方向是什么?

未来将探索稀疏注意力和模拟人类学习效率的方向。

➡️

继续阅读