晓飞的算法工程笔记 ·

SSD：清华出品，可切换密集稀疏的大模型预训练加速方案 | ICML'24 - 晓飞的算法工程笔记

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

该论文研究了Transformer预训练中的激活稀疏性，提出了可切换稀疏-密集学习（SSD）方法，能够自适应切换稀疏和密集训练，从而提高预训练效率和推理速度。SSD在相同模型规模下实现了可比性能，降低了预训练成本，推理速度提升可达2倍。

🎯

关键要点

该论文研究了Transformer预训练中的激活稀疏性。
提出了可切换稀疏-密集学习（SSD）方法，能够自适应切换稀疏和密集训练。
SSD提高了预训练效率和推理速度，推理速度提升可达2倍。
Transformer在预训练过程中表现出稀疏激活，激活相关性随着训练的进行而演变。
SSD包含原始密集训练和稀疏训练两个阶段，能够有效优化模型参数。
SSD在相同模型规模下实现了可比性能，并降低了预训练成本。
使用SSD训练的模型可以直接作为MoE模型用于稀疏推理。
SSD专注于加速Transformer中的前馈网络，通过切换稀疏和密集模式实现加速。
使用平衡的k-means聚类将神经元聚类成多个组，以提高稀疏计算的效率。
通过监控激活模式的变化来确定切换到稀疏训练的时机。
在训练结束时采用稠密训练，以确保最终模型可以进行稠密使用。

❓

延伸问答

可切换稀疏-密集学习（SSD）是什么？

SSD是一种自适应切换稀疏和密集训练的方法，旨在提高Transformer预训练的效率和推理速度。

SSD如何提高Transformer的推理速度？

SSD通过在稀疏和密集训练之间切换，优化模型参数，从而实现推理速度提升可达2倍。

SSD在预训练过程中包含哪些阶段？

SSD包含原始密集训练和稀疏训练两个阶段，分别用于激活模式的演变和模型参数的优化。

使用SSD训练的模型有什么优势？

使用SSD训练的模型可以直接作为MoE模型进行稀疏推理，并且在推理速度和性能上与密集模型相当。

SSD如何处理激活模式的变化？

SSD通过监控激活模式的变化，确定何时切换到稀疏训练，以适应激活模式的动态特性。

SSD在预训练成本上有什么影响？

SSD在相同模型规模下实现了可比性能，并降低了预训练成本，提升了训练效率。

🏷️

继续阅读

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一
阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异，推理速度超过400 tokens/s，单任务成本仅为Claude Opus 4.6的...
[译] 我所知道的全部智能体工程技巧（2026 年 6 月）
本文探讨了智能体工程的技巧，强调使用计划文件和智能体协作来提高工作效率。作者分享了通过语音输入、并行处理和自动化工具简化开发流程的经验，建议将想法转化为计...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...