Quamba:选择性状态空间模型的后训练量化方法
原文中文,约800字,阅读约需2分钟。发表于: 。本研究解决了状态空间模型在请求密集型云服务和资源有限的边缘应用中的效率问题。提出了一种静态8位每个张量的量化方法,通过抑制输入激活的最大值和在无离群点空间中量化输出激活,从而提高量化精度。实验结果表明,该方法在多个平台上均实现了显著的延迟降低,且准确率仅有微小下降,展现了其在广泛部署中的有效性。
选择性状态空间模型(SSMs)如Mamba解决了Transformer的一些问题,如计算复杂度和内存需求。研究显示,SSMs在语言建模上可与Transformers媲美。比较8B参数的Mamba、Mamba-2和Transformer模型,发现纯SSMs在许多任务上表现优异,但在需要强复制或上下文学习的任务上不如Transformers。混合模型Mamba-2-Hybrid在所有任务中表现出色,速度更快,并在长期上下文任务中超越Transformer。研究结果和代码已发布。