混合专家后训练量化的研究:一个基准评估
原文中文,约500字,阅读约需2分钟。发表于: 。大型语言模型的研究中,Mixture-of-Experts(MoE)方法通过稀疏激活以更少的计算 FLOPs 实现了对 LLMs 的有效扩展,但是由于显著的内存开销,在直接应用于 MoE 模型时,后训练量化的常规方法效果较差。本文所做工作在多个维度对 MoE 结构感知的量化启发式方法进行了探索,包括从粗到细粒度、从 MoE 块到单个线性权重。研究结果揭示了关键原则:不同的 MoE...
本文研究了大型语言模型中的Mixture-of-Experts(MoE)方法,通过稀疏激活实现了对LLMs的有效扩展。通过量化启发式方法,揭示了不同MoE结构需要不同数量的权重位数以实现有效和高效的量化。同时,引入了一些新的增强方法,以更准确地识别MoE量化中需要更高位数分配的关键权重。