小红花·文摘

演讲：利用现代架构最大化CPU上的深度学习性能

InfoQ ·

本研究利用Intel CPU的高级矩阵扩展（AMX）和非结构稀疏性，解决了大语言模型在推理阶段的内存限制和解码速度慢的问题，实现了1.42倍的延迟减少，并提供了开源稀疏内核方案，提升了大语言模型在常规计算平台上的可访问性。

SparAMX: Accelerating Token Generation of Compressed Large Language Models on AMX-Supported CPUs

BriefGPT - AI 论文速递 ·

清华大学KVCache.AI团队与趋境科技推出KTransformers项目，支持在24G显存下运行DeepSeek-R1，显著提升推理速度。该项目通过异构计算和CPU的AMX指令集加速，预填充速度达到286 tokens/s，生成速度为14 tokens/s，降低了大模型的运行门槛，推动了本地部署的可能性。

配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+AMX让预填充速度起飞

量子位 ·

阿里云PAI团队研发了PAI-REC全链路解决方案，通过优化模型训练和推理，提升了推荐系统的速度和效率。采用英特尔® 第四代至强® 可扩展处理器Sapphire Rapids（SPR）和英特尔® AMX技术，提高了矩阵乘法的计算效率。使用BFloat16浮点格式和算子融合优化，降低了内存占用和计算开销。通过特征计算优化和图优化，进一步提升了性能。阿里云和英特尔将继续合作，探索创新方式来优化软硬件集成，提升深度学习模型的性能。

英特尔AMX助力阿里云提升推荐模型性能

阿里云云栖号 ·