基于GPU张量核心的大型语言模型高效任意精度加速
原文中文,约2300字,阅读约需6分钟。发表于: 。该研究解决了大型语言模型在高效推理过程中面临的挑战,尤其是在超低比特量化和内存管理方面的限制。提出了一种新颖的双极INT数据格式和任意精度矩阵乘法方案,显著提升了GPU张量核心的利用率,并通过高效的内存管理系统实现了最大化的执行速度。实验结果表明,该方法在矩阵乘法上可达到高达13倍的加速,并在大型语言模型中实现了高达6.7倍的推理加速。
该研究提出了一种新的双极INT数据格式和任意精度矩阵乘法方法,提高了GPU张量核心的效率,并通过优化内存管理加速大型语言模型的推理。实验表明,该方法在矩阵乘法上实现了13倍加速,在大型语言模型推理中实现了6.7倍加速,有效解决了超低比特量化和内存管理的挑战。