Bibek Bhattarai在英特尔担任AI技术负责人,介绍了第四代Xeon处理器中的AMX(高级矩阵扩展)。AMX通过优化矩阵乘法,特别适用于深度学习工作负载,利用低精度计算(如bf16和int8)提升性能并减少内存带宽限制。使用AMX时需确保CPU支持并配置相应指令集。
本研究利用Intel CPU的高级矩阵扩展(AMX)和非结构稀疏性,解决了大语言模型在推理阶段的内存限制和解码速度慢的问题,实现了1.42倍的延迟减少,并提供了开源稀疏内核方案,提升了大语言模型在常规计算平台上的可访问性。
清华大学KVCache.AI团队与趋境科技推出KTransformers项目,支持在24G显存下运行DeepSeek-R1,显著提升推理速度。该项目通过异构计算和CPU的AMX指令集加速,预填充速度达到286 tokens/s,生成速度为14 tokens/s,降低了大模型的运行门槛,推动了本地部署的可能性。
阿里云PAI团队研发了PAI-REC全链路解决方案,通过优化模型训练和推理,提升了推荐系统的速度和效率。采用英特尔® 第四代至强® 可扩展处理器Sapphire Rapids(SPR)和英特尔® AMX技术,提高了矩阵乘法的计算效率。使用BFloat16浮点格式和算子融合优化,降低了内存占用和计算开销。通过特征计算优化和图优化,进一步提升了性能。阿里云和英特尔将继续合作,探索创新方式来优化软硬件集成,提升深度学习模型的性能。
完成下面两步后,将自动完成登录并继续当前操作。