小红花·文摘

微软亚洲研究院提出了一种名为Q-Sparse的模型稀疏化方法，只需激活60%的参数就能实现与全激活稠密模型相当的性能。该方法适用于从头训练、继续训练和微调，并能与量化技术结合使用。研究还发现了适用于模型推理优化的“Scaling Law”。实验结果表明，Q-Sparse在稀疏率和模型表现上优于之前的ReLU方法。此外，作者还发现稀疏激活模型的性能遵循幂律缩放关系，随着模型规模的增大，稀疏激活模型与密集模型之间的性能差距逐渐缩小。