InfoQ ·

演讲：利用现代架构最大化CPU上的深度学习性能

💡 原文英文，约5200词，阅读约需19分钟。

📝

内容提要

Bibek Bhattarai在英特尔担任AI技术负责人，介绍了第四代Xeon处理器中的AMX（高级矩阵扩展）。AMX通过优化矩阵乘法，特别适用于深度学习工作负载，利用低精度计算（如bf16和int8）提升性能并减少内存带宽限制。使用AMX时需确保CPU支持并配置相应指令集。

🎯

🔎

AMX（高级矩阵扩展）在深度学习中的应用非常广泛，尤其是在处理低精度数据时。使用AMX可以显著提高模型的运行效率，尤其是在使用bf16和int8时，几乎没有准确度损失。用户在选择CPU时，应确保其支持AMX，并配置相应的指令集，以便充分利用这一技术。

尽管GPU在深度学习中占据主导地位，但由于可用性问题，许多深度学习工作负载仍在CPU上运行。优化GEMM（通用矩阵乘法）操作是加速CPU工作负载的关键。通过循环重排和分块矩阵乘法等技术，可以提高缓存利用率，从而提升性能。

随着深度学习模型的复杂性增加，低精度计算变得愈发重要。AMX能够高效处理低精度数据，帮助减少内存带宽限制并提高计算效率。用户在设计模型时，应考虑使用低精度格式，以便在不损失准确度的情况下，提升模型的运行速度和资源利用率。

❓

AMX（高级矩阵扩展）是第四代Xeon处理器中引入的一种指令集架构扩展，主要用于优化矩阵乘法，特别适合深度学习工作负载。

使用AMX至少需要第四代Xeon处理器和Linux内核5.16以上版本，并确保CPU支持相应的指令集。

AMX通过优化低精度计算（如bf16和int8）和提高矩阵乘法的缓存利用率，显著提升模型的运行效率。

低精度计算可以减少内存带宽限制，提高计算效率，同时在使用AMX时几乎没有准确度损失。

可以通过高层语言编程来利用AMX，用户需要配置tile并加载数据进行计算，使用支持AMX的库和框架即可。

AMX目前支持int8和bf16数据类型，并且在未来版本中可能会支持更多低精度格式。

🏷️