只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软
💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
微软亚洲研究院提出了一种名为Q-Sparse的模型稀疏化方法,只需激活60%的参数就能实现与全激活稠密模型相当的性能。该方法适用于从头训练、继续训练和微调,并能与量化技术结合使用。研究还发现了适用于模型推理优化的“Scaling Law”。实验结果表明,Q-Sparse在稀疏率和模型表现上优于之前的ReLU方法。此外,作者还发现稀疏激活模型的性能遵循幂律缩放关系,随着模型规模的增大,稀疏激活模型与密集模型之间的性能差距逐渐缩小。
🎯
关键要点
- 微软亚洲研究院提出Q-Sparse模型稀疏化方法,仅激活60%的参数即可实现与全激活模型相当的性能。
- Q-Sparse适用于从头训练、继续训练和微调,并能与量化技术结合使用。
- Q-Sparse通过Top-K稀疏化函数实现模型稀疏化,显著减少计算量和内存带宽需求。
- 在前馈层中,Q-Sparse使用平方ReLU函数替代常规ReLU激活函数,以提高激活的稀疏性。
- 实验结果显示,Q-Sparse在稀疏率和模型表现上优于ReLU方法,能够在不同任务中保持性能。
- 研究发现稀疏激活模型的性能遵循幂律缩放关系,随着模型规模增大,稀疏激活模型与密集模型的性能差距逐渐缩小。
- 最优稀疏率S*可在一定预算下实现模型损失函数值的最小化,FP32模型的最优稀疏率约为45.58%。
- Q-Sparse可以无缝集成到量化模型中,进一步提高大语言模型在推理阶段的效率。
➡️