SSD:清华出品,可切换密集稀疏的大模型预训练加速方案 | ICML'24 - 晓飞的算法工程笔记

SSD:清华出品,可切换密集稀疏的大模型预训练加速方案 | ICML'24 - 晓飞的算法工程笔记

💡 原文中文,约3800字,阅读约需9分钟。
📝

内容提要

该论文研究了Transformer预训练中的激活稀疏性,提出了可切换稀疏-密集学习(SSD)方法,能够自适应切换稀疏和密集训练,从而提高预训练效率和推理速度。SSD在相同模型规模下实现了可比性能,降低了预训练成本,推理速度提升可达2倍。

🎯

关键要点

  • 该论文研究了Transformer预训练中的激活稀疏性。
  • 提出了可切换稀疏-密集学习(SSD)方法,能够自适应切换稀疏和密集训练。
  • SSD提高了预训练效率和推理速度,推理速度提升可达2倍。
  • Transformer在预训练过程中表现出稀疏激活,激活相关性随着训练的进行而演变。
  • SSD包含原始密集训练和稀疏训练两个阶段,能够有效优化模型参数。
  • SSD在相同模型规模下实现了可比性能,并降低了预训练成本。
  • 使用SSD训练的模型可以直接作为MoE模型用于稀疏推理。
  • SSD专注于加速Transformer中的前馈网络,通过切换稀疏和密集模式实现加速。
  • 使用平衡的k-means聚类将神经元聚类成多个组,以提高稀疏计算的效率。
  • 通过监控激活模式的变化来确定切换到稀疏训练的时机。
  • 在训练结束时采用稠密训练,以确保最终模型可以进行稠密使用。
➡️

继续阅读