量子位 ·

只激活3.8B参数，性能比肩同款7B模型！训练微调都能用，来自微软

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

微软亚洲研究院提出了一种名为Q-Sparse的模型稀疏化方法，只需激活60%的参数就能实现与全激活稠密模型相当的性能。该方法适用于从头训练、继续训练和微调，并能与量化技术结合使用。研究还发现了适用于模型推理优化的“Scaling Law”。实验结果表明，Q-Sparse在稀疏率和模型表现上优于之前的ReLU方法。此外，作者还发现稀疏激活模型的性能遵循幂律缩放关系，随着模型规模的增大，稀疏激活模型与密集模型之间的性能差距逐渐缩小。

🎯

关键要点

微软亚洲研究院提出Q-Sparse模型稀疏化方法，仅激活60%的参数即可实现与全激活模型相当的性能。
Q-Sparse适用于从头训练、继续训练和微调，并能与量化技术结合使用。
Q-Sparse通过Top-K稀疏化函数实现模型稀疏化，显著减少计算量和内存带宽需求。
在前馈层中，Q-Sparse使用平方ReLU函数替代常规ReLU激活函数，以提高激活的稀疏性。
实验结果显示，Q-Sparse在稀疏率和模型表现上优于ReLU方法，能够在不同任务中保持性能。
研究发现稀疏激活模型的性能遵循幂律缩放关系，随着模型规模增大，稀疏激活模型与密集模型的性能差距逐渐缩小。
最优稀疏率S*可在一定预算下实现模型损失函数值的最小化，FP32模型的最优稀疏率约为45.58%。
Q-Sparse可以无缝集成到量化模型中，进一步提高大语言模型在推理阶段的效率。

❓

延伸问答

Q-Sparse模型的主要优势是什么？

Q-Sparse模型只需激活60%的参数即可实现与全激活模型相当的性能，显著降低计算量和内存带宽需求。

Q-Sparse如何实现模型稀疏化？

Q-Sparse通过Top-K稀疏化函数对输入张量进行处理，保留绝对值最大的K个元素，从而实现稀疏化。

Q-Sparse模型适用于哪些训练方式？

Q-Sparse适用于从头训练、继续训练和微调，具有广泛的应用范围。

Q-Sparse与ReLU方法相比有什么优势？

实验结果显示，Q-Sparse在稀疏率和模型表现上均优于ReLU方法，能够在不同任务中保持性能。

Q-Sparse的最优稀疏率是多少？

对于全精度模型，Q-Sparse的最优稀疏率约为45.58%。

Q-Sparse如何与量化技术结合使用？

Q-Sparse可以无缝集成到量化模型中，进一步提高大语言模型在推理阶段的效率。

🏷️

继续阅读

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
垃圾桶里捡零件，弹幕里接需求，B 站有群人在用 AI 野生造产品
胡彦斌利用AI编程开发了粉丝社区App「彦火」，呼吁粉丝参与共创。广西学生JXW从垃圾桶捡镜子制作智能眼镜，获得关注。听障者李朋程开发语训App，帮助听障...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...