深度神经网络加速器中的量化和映射协同探索

卷积神经网络（CNN）的能效和内存占用取决于权重量化策略和映射，通过启用丰富的混合量化方案，我们可以找到更有效利用硬件资源的映射，从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展 Timeloop 工具，提出了一种高效的多目标优化算法，实证了该方法在两种 CNN 和两种加速器上的有效性，并证明了相对于未经精心优化的 CNN 实现，可以实现高达 37% 的能量节省，而无需降低精度。

本文介绍了卷积神经网络量化技术，通过逐通道和逐层量化权重和激活，降低模型大小并提高分类准确率。作者提出了一种使用TensorFlow和TensorFlowLite进行卷积网络量化的工具，并回顾了最佳实践。作者建议首选逐通道量化的权重和逐层量化的激活，并提出未来处理器和硬件加速器应支持多种精度。