手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
💡
原文中文,约3200字,阅读约需8分钟。
📝
内容提要
微软亚研院开源T-MAC技术,高效部署大语言模型,无需反量化,支持混合精度矩阵乘,性能超过NPU,适合低比特模型,具有功耗优势。
🎯
关键要点
- 微软亚研院开源T-MAC技术,优化模型端侧部署。
- T-MAC支持在CPU上高效部署低比特大语言模型,无需反量化。
- 采用基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法。
- T-MAC在性能上超过NPU,适合资源受限的端侧设备。
- 在高通Snapdragon X Elite芯片组上,T-MAC生成速率可达每秒48个token。
- T-MAC在Raspberry Pi 5上也能达到每秒11个token的生成速率。
- T-MAC的功耗优势显著,所需核心数仅为原始llama.cpp的1/4至1/6。
- T-MAC的计算性能随着比特数降低而线性提高,适合2比特模型。
- T-MAC通过查表计算替代传统乘加计算,提升效率。
- 研究员们针对CPU进行了多项优化,最终实现显著加速。
❓
延伸问答
T-MAC技术的主要优势是什么?
T-MAC技术在CPU上高效部署低比特大语言模型,性能超过NPU,且功耗显著降低。
T-MAC如何支持混合精度矩阵乘法?
T-MAC采用基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法,无需反量化。
在什么设备上可以使用T-MAC技术?
T-MAC技术可以在手机、PC、树莓派等端侧设备上使用。
T-MAC的计算性能如何随着比特数变化?
T-MAC的计算性能随着比特数降低而线性提高,适合2比特模型。
T-MAC在Raspberry Pi 5上的表现如何?
在Raspberry Pi 5上,T-MAC能够达到每秒11个token的生成速率。
T-MAC技术的开源情况如何?
T-MAC技术已开源,相关论文已在arXiv公开。
➡️