SIMD 数据流协同优化用于 CPU 上高效神经网络推理
原文中文,约400字,阅读约需1分钟。发表于: 。通过使用数据流和启发式引导分析及代码生成框架,我们致力于解决在 CPU 上部署神经网络时所面临的挑战,特别注重在保持准确性的同时最小化推断时间。我们的研究结果表明,通过保持输出在 SIMD 寄存器中的数据流,并同时最大限度地利用输入和权重重用,可以实现各种推断工作负载的最佳性能,使 8 位神经网络的速度提高 3 倍,二进制神经网络的速度提高 4.8 倍。
IntelCaffe是一个支持8位低精度推断的深度学习框架,可在Intel Xeon Scalable处理器上加速卷积神经网络的模型优化过程。通过一次标定过程,8位优化模型可从FP32模型自动生成,无需微调或重新训练。在ResNet-50、Inception-v3和SSD上,推断吞吐量和延迟分别提高了1.38X-2.9X和1.35X-3X,精度损失可忽略不计。