我爱自然语言处理 ·

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

本文介绍了一种新型极简激活超级大脑模型，参数总数为142B，动态激活为14B，训练成本仅为Qwen2.5-72B的1/4。该模型在中文理解、数学推理和代码生成等任务中表现优异，并开源了训练过程，强调数据质量和系统创新的重要性。未来将探索稀疏注意力和模拟人类学习效率。

🎯

❓

小红书dots.llm1模型的总参数为142B，动态激活参数为14B。

dots.llm1模型的训练成本仅为Qwen2.5-72B的1/4。

在中文理解任务中，模型得分为92.8，数学推理任务得分为33.1，表现优异。

该模型采用了128路由专家和2个共享专家的MoE架构。

数据质量显著提升模型性能，优质数据使小模型性能提升超过15%。

未来将探索稀疏注意力和模拟人类学习效率的方向。

🏷️

MoE环游记：8、强制序列级均衡
到目前为止，“MoE环游记”系列已经写了7篇文章，其中5篇都是围绕着MoE的路由和负载均衡展开的。从路由的形式来看，它们可以分为静态计算和动态计算两类；从...
派早报：小米召开新品发布会、Photoshop 移除工具支持端侧 AI 模型等
小米于5月21日发布了小米17 Max手机和YU7 GT SUV。小米17 Max售价4299元，主打续航与影像，搭载8000mAh电池和徕卡两亿像素摄像...
第三代元 PLUS 上市：12 万级纯电 SUV，想成为世界级「六边形战士」
卖到莱茵河流域去。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
基于 Amazon ECS Fargate 自建 Keycloak 作为 AWS IAM Identity Center 外部 IdP，为 Kiro 提供企业级 SSO 登录
Kiro 是一款面向开发者的 AI 辅助编程工具，支持 Google、GitHub、AWS Builder ID、AWS IAM Identity Cen...
Windows中监控进程的DNS查询
自从Windows有了DNS Client Service (Dnscache)，进程发起DNS查询时，就与此Read More
打破AI存储瓶颈
文章讨论了如何消除AI存储瓶颈，以提高GPU利用率。MinIO的联合创始人Garima Kapoor和Anand Babu Periasamy与NVIDI...