混合输入矩阵乘法的性能优化

六虎 六虎 ·

本文介绍了混合输入矩阵乘法的性能优化方法,包括使用更小的数据类型和仅权重量化技术来降低内存消耗,以及将混合输入矩阵乘法映射到NVIDIA Ampere架构的软件技术来提高性能。通过优化策略如FastNumericArrayConvertor和FragmentShuffler,减少数据类型转换和布局一致性的计算开销。实验结果表明,该方法在NVIDIA A100芯片上取得了良好的性能。

原文中文,约4500字,阅读约需11分钟。
阅读原文