SparAMX: Accelerating Token Generation of Compressed Large Language Models on AMX-Supported CPUs
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究利用Intel CPU的高级矩阵扩展(AMX)和非结构稀疏性,解决了大语言模型在推理阶段的内存限制和解码速度慢的问题,实现了1.42倍的延迟减少,并提供了开源稀疏内核方案,提升了大语言模型在常规计算平台上的可访问性。
🎯
关键要点
- 本研究利用Intel CPU的高级矩阵扩展(AMX)和非结构稀疏性,解决了大语言模型在推理阶段的内存限制和解码速度慢的问题。
- 实现了1.42倍的延迟减少,同时保持了模型的准确性。
- 提供了开源的稀疏内核方案,能够加速任何PyTorch模型的线性层处理。
- 研究结果提升了大语言模型在常规计算平台上的可访问性,降低了AI使用的成本。
➡️