手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

微软亚研院开源T-MAC技术,高效部署大语言模型,无需反量化,支持混合精度矩阵乘,性能超过NPU,适合低比特模型,具有功耗优势。

🎯

关键要点

  • 微软亚研院开源T-MAC技术,优化模型端侧部署。
  • T-MAC支持在CPU上高效部署低比特大语言模型,无需反量化。
  • 采用基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法。
  • T-MAC在性能上超过NPU,适合资源受限的端侧设备。
  • 在高通Snapdragon X Elite芯片组上,T-MAC生成速率可达每秒48个token。
  • T-MAC在Raspberry Pi 5上也能达到每秒11个token的生成速率。
  • T-MAC的功耗优势显著,所需核心数仅为原始llama.cpp的1/4至1/6。
  • T-MAC的计算性能随着比特数降低而线性提高,适合2比特模型。
  • T-MAC通过查表计算替代传统乘加计算,提升效率。
  • 研究员们针对CPU进行了多项优化,最终实现显著加速。

延伸问答

T-MAC技术的主要优势是什么?

T-MAC技术在CPU上高效部署低比特大语言模型,性能超过NPU,且功耗显著降低。

T-MAC如何支持混合精度矩阵乘法?

T-MAC采用基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法,无需反量化。

在什么设备上可以使用T-MAC技术?

T-MAC技术可以在手机、PC、树莓派等端侧设备上使用。

T-MAC的计算性能如何随着比特数变化?

T-MAC的计算性能随着比特数降低而线性提高,适合2比特模型。

T-MAC在Raspberry Pi 5上的表现如何?

在Raspberry Pi 5上,T-MAC能够达到每秒11个token的生成速率。

T-MAC技术的开源情况如何?

T-MAC技术已开源,相关论文已在arXiv公开。

➡️

继续阅读