量子位 ·

手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

微软亚研院开源T-MAC技术，高效部署大语言模型，无需反量化，支持混合精度矩阵乘，性能超过NPU，适合低比特模型，具有功耗优势。

🎯

关键要点

微软亚研院开源T-MAC技术，优化模型端侧部署。
T-MAC支持在CPU上高效部署低比特大语言模型，无需反量化。
采用基于查找表（LUT）的计算范式，直接支持混合精度矩阵乘法。
T-MAC在性能上超过NPU，适合资源受限的端侧设备。
在高通Snapdragon X Elite芯片组上，T-MAC生成速率可达每秒48个token。
T-MAC在Raspberry Pi 5上也能达到每秒11个token的生成速率。
T-MAC的功耗优势显著，所需核心数仅为原始llama.cpp的1/4至1/6。
T-MAC的计算性能随着比特数降低而线性提高，适合2比特模型。
T-MAC通过查表计算替代传统乘加计算，提升效率。
研究员们针对CPU进行了多项优化，最终实现显著加速。

❓

延伸问答

T-MAC技术的主要优势是什么？

T-MAC技术在CPU上高效部署低比特大语言模型，性能超过NPU，且功耗显著降低。

T-MAC如何支持混合精度矩阵乘法？

T-MAC采用基于查找表（LUT）的计算范式，直接支持混合精度矩阵乘法，无需反量化。

在什么设备上可以使用T-MAC技术？

T-MAC技术可以在手机、PC、树莓派等端侧设备上使用。

T-MAC的计算性能如何随着比特数变化？

T-MAC的计算性能随着比特数降低而线性提高，适合2比特模型。

T-MAC在Raspberry Pi 5上的表现如何？

在Raspberry Pi 5上，T-MAC能够达到每秒11个token的生成速率。

T-MAC技术的开源情况如何？

T-MAC技术已开源，相关论文已在arXiv公开。

🏷️

标签

T-MAC cpu 低比特模型大模型大语言模型微软微软亚研院混合精度矩阵乘

➡️

继续阅读

视频问诊系统如何判断厂商的技术可靠性
选视频问诊供应商时，”技术可不可靠”是最重要也最难判断的维度。市场宣传里每家都说自己稳定、低延迟、高画质。但技术可靠性不是靠一句话能判断的，它需要看几个可以...
大模型训练是在挖“结构信息”，新尺子把信息论脸打肿了
很少有概念像智能一样被如此多的学科所引用，也很少有概念像智能一样被以如此多互不相容的方式进行理论阐释。对统计学和机器学习而言，智能是数据的极端压缩；对复...
一万五刀跑通7530亿参数GLM-5.2：开源模型量化压缩技术全解析
AI模型价格从70万打到1.5万，开源社区是把大厂当韭菜割了吗？ 80%的模型体积被削掉，智商居然还保留82%。一群民间高手在Discord里把7530亿...
特斯拉Q2营收创新高但利润下滑，马斯克坦言人形机器人“最难量产” | 全球深一度
(全球TMT 2026年07月23日讯)当地时间7月22日，特斯拉发布的2026年第二季度财报显示，公司本季度 […]
现代语聊房背后的技术栈：API、云基础设施与实时数据
很少有哪个面向消费者的行业能像语聊房一样把实时通信技术应用到极限。每一路音频流、每一个礼物动效、每一次实时互动背后，都隐藏着令任何实时音视频开发工程师都似...
Wowza 将英伟达的合成视频检测器引入到直播基础设施中
英伟达在其面向媒体的AI平台中推出了合成视频检测器（NIM）微服务。该服务用于筛查视频片段，检测是否存在AI生成的内容。该检测器会检查视频的每一帧，寻找...