混合专家后训练量化的研究：一个基准评估

大型语言模型的研究中，Mixture-of-Experts（MoE）方法通过稀疏激活以更少的计算 FLOPs 实现了对 LLMs 的有效扩展，但是由于显著的内存开销，在直接应用于 MoE 模型时，后训练量化的常规方法效果较差。本文所做工作在多个维度对 MoE 结构感知的量化启发式方法进行了探索，包括从粗到细粒度、从 MoE 块到单个线性权重。研究结果揭示了关键原则：不同的 MoE...

本文研究了大型语言模型中的Mixture-of-Experts（MoE）方法，通过稀疏激活实现了对LLMs的有效扩展。通过量化启发式方法，揭示了不同MoE结构需要不同数量的权重位数以实现有效和高效的量化。同时，引入了一些新的增强方法，以更准确地识别MoE量化中需要更高位数分配的关键权重。