只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

微软亚洲研究院提出了一种名为Q-Sparse的模型稀疏化方法,只需激活60%的参数就能实现与全激活稠密模型相当的性能。该方法适用于从头训练、继续训练和微调,并能与量化技术结合使用。研究还发现了适用于模型推理优化的“Scaling Law”。实验结果表明,Q-Sparse在稀疏率和模型表现上优于之前的ReLU方法。此外,作者还发现稀疏激活模型的性能遵循幂律缩放关系,随着模型规模的增大,稀疏激活模型与密集模型之间的性能差距逐渐缩小。

🎯

关键要点

  • 微软亚洲研究院提出Q-Sparse模型稀疏化方法,仅激活60%的参数即可实现与全激活模型相当的性能。
  • Q-Sparse适用于从头训练、继续训练和微调,并能与量化技术结合使用。
  • Q-Sparse通过Top-K稀疏化函数实现模型稀疏化,显著减少计算量和内存带宽需求。
  • 在前馈层中,Q-Sparse使用平方ReLU函数替代常规ReLU激活函数,以提高激活的稀疏性。
  • 实验结果显示,Q-Sparse在稀疏率和模型表现上优于ReLU方法,能够在不同任务中保持性能。
  • 研究发现稀疏激活模型的性能遵循幂律缩放关系,随着模型规模增大,稀疏激活模型与密集模型的性能差距逐渐缩小。
  • 最优稀疏率S*可在一定预算下实现模型损失函数值的最小化,FP32模型的最优稀疏率约为45.58%。
  • Q-Sparse可以无缝集成到量化模型中,进一步提高大语言模型在推理阶段的效率。
➡️

继续阅读