小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

核心突破：极简激活的超级大脑三大技术支柱撑起SOTA表现 1. 数据工程：11.2T高质量token的炼金术 […]

本文介绍了一种新型极简激活超级大脑模型，参数总数为142B，动态激活为14B，训练成本仅为Qwen2.5-72B的1/4。该模型在中文理解、数学推理和代码生成等任务中表现优异，并开源了训练过程，强调数据质量和系统创新的重要性。未来将探索稀疏注意力和模拟人类学习效率。

中文理解小红书极简激活稀疏注意力训练成本超级大脑模型