小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限

核心突破:极简激活的超级大脑 三大技术支柱撑起SOTA表现 1. 数据工程:11.2T高质量token的炼金术 […]

本文介绍了一种新型极简激活超级大脑模型,参数总数为142B,动态激活为14B,训练成本仅为Qwen2.5-72B的1/4。该模型在中文理解、数学推理和代码生成等任务中表现优异,并开源了训练过程,强调数据质量和系统创新的重要性。未来将探索稀疏注意力和模拟人类学习效率。

小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限
原文中文,约2000字,阅读约需5分钟。发表于:
阅读原文