本研究提出了一种细粒度量化技术,有效解决了大语言模型在多硬件加速器推理中的通信延迟问题,实现了3.5到4.5倍的压缩率,首次令牌响应时间缩短最多2倍,且对模型性能影响微小。
完成下面两步后,将自动完成登录并继续当前操作。