SIMD 数据流协同优化用于 CPU 上高效神经网络推理

通过使用数据流和启发式引导分析及代码生成框架，我们致力于解决在 CPU 上部署神经网络时所面临的挑战，特别注重在保持准确性的同时最小化推断时间。我们的研究结果表明，通过保持输出在 SIMD 寄存器中的数据流，并同时最大限度地利用输入和权重重用，可以实现各种推断工作负载的最佳性能，使 8 位神经网络的速度提高 3 倍，二进制神经网络的速度提高 4.8 倍。

IntelCaffe是一个支持8位低精度推断的深度学习框架，可在Intel Xeon Scalable处理器上加速卷积神经网络的模型优化过程。通过一次标定过程，8位优化模型可从FP32模型自动生成，无需微调或重新训练。在ResNet-50、Inception-v3和SSD上，推断吞吐量和延迟分别提高了1.38X-2.9X和1.35X-3X，精度损失可忽略不计。

8位低精度推断 IntelCaffe ResNet-50 cpu 卷积神经网络模型优化神经网络