机器之心 ·

大模型终端部署新趋势：硬件直接支持混合矩阵乘法

💡 原文中文，约5600字，阅读约需14分钟。

📝

内容提要

微软亚洲研究院推出了数据编译器Ladder和算法T-MAC，支持低比特量化技术在硬件设备上的运行。Ladder转换数据类型指令，提高DNN计算效率；T-MAC通过查找表操作实现低比特混合精度矩阵乘法，提高CPU推理速度。研究员设计了LUT Tensor Core硬件架构，为人工智能硬件提供新思路。创新技术使大模型在资源受限设备上高效运行，推动人工智能应用。

🎯

关键要点

微软亚洲研究院推出数据编译器Ladder和算法T-MAC，支持低比特量化技术在硬件设备上的运行。
Ladder转换数据类型指令，提高DNN计算效率，最高提速可达14.6倍。
T-MAC通过查找表操作实现低比特混合精度矩阵乘法，使CPU推理速度比专用加速器快两倍。
研究员设计了LUT Tensor Core硬件架构，为人工智能硬件提供新思路。
低比特量化技术成为大模型在资源受限设备上高效运行的关键技术。
Ladder支持各种低精度数据类型的表达和转换，弥合自定义数据类型与硬件支持之间的差距。
T-MAC利用查找表方法减少乘法和加法运算次数，提升低比特量化大模型的推理效率。
LUT Tensor Core通过查找表直接执行混合精度矩阵乘法，提升计算效率和灵活性。
低比特量化技术为模型参数扩展提供新空间，推动具身智能系统的部署。
T-MAC和Ladder已在GitHub上开源，鼓励研发人员测试应用。

❓

延伸问答

微软亚洲研究院推出了哪些新技术来支持低比特量化？

微软亚洲研究院推出了数据编译器Ladder和算法T-MAC，以支持低比特量化技术在硬件设备上的运行。

Ladder如何提高DNN计算效率？

Ladder通过转换数据类型指令，最高可将DNN计算效率提升14.6倍。

T-MAC的核心思想是什么？

T-MAC的核心思想是利用查找表方法减少乘法和加法运算次数，从而实现低比特混合精度矩阵乘法的高效推理。

LUT Tensor Core硬件架构的优势是什么？

LUT Tensor Core通过查找表直接执行混合精度矩阵乘法，提高计算效率和灵活性，简化了硬件需求。

低比特量化技术对大模型的部署有什么影响？

低比特量化技术显著压缩模型规模，降低对计算资源的需求，使大模型能够在资源受限设备上高效运行。

T-MAC和Ladder的开源情况如何？

T-MAC和Ladder已经在GitHub上开源，鼓励研发人员进行测试和应用。

🏷️