高效边缘人工智能:使用Gemmini加速器在FPGA上部署卷积神经网络
内容提要
本文综述了深度学习加速器(DLA)和FPGA在卷积神经网络(CNN)中的应用,探讨了设计方法和性能评估。研究表明,FPGA与深度神经网络(DNN)结合设计能显著提升对象检测性能并降低能耗。同时介绍了Edge TPU和脉冲神经网络(SNN)的性能优化技术,强调其在边缘计算中的应用潜力。
关键要点
-
利用深度学习加速器(DLA)和Winograd变换技术,在Intel Arria 10设备上实现了1020图像/秒的性能,效率提高5.8倍。
-
综述了现有的CNN-to-FPGA工具流,提出了统一的评估方法以评估CNN-to-FPGA工具流的关键特性。
-
提出了一种FPGA/DNN共同设计方法,结果显示该设计在对象检测上优于GPU解决方案。
-
研究了协同设计神经网络架构和硬件加速器的重要性,联合搜索方法在延迟目标上优于传统方法,能耗降低高达2倍。
-
介绍Edge TPUs的微体系结构及其在不同计算生态中的性能表现,讨论了其在CNN上的表现。
-
提出了一种差分映射方案以提高ReRAM的容错性,实现负载裁剪技术,容忍高达一个数量级的故障率。
-
提出动态流式传输模型参数的方法,实现可扩展和动态分布式CNN推断,提升边缘设备性能。
-
介绍基于硬件加速的卷积操作FPGA架构,实验结果显示其峰值运算性能可达4.48 GOPS。
-
提供将预先训练的DNN转换为脉冲神经网络(SNNs)的指南,实验结果显示功耗和能耗显著降低。
-
基于低功耗内嵌FPGA的分布式系统可用于边缘计算,优化深度学习负载以获得最佳性能。
延伸问答
FPGA在卷积神经网络中的优势是什么?
FPGA与深度神经网络结合设计能显著提升对象检测性能并降低能耗。
Gemmini加速器的性能如何?
Gemmini加速器在Intel Arria 10设备上实现了1020图像/秒的性能,效率提高5.8倍。
如何评估CNN到FPGA的工具流?
提出了一种统一的评估方法,以全面评估CNN-to-FPGA工具流的关键特性。
Edge TPU在CNN上的表现如何?
Edge TPU在不同计算生态中的性能表现良好,适用于高精度机器学习模型。
如何提高ReRAM的容错性?
提出了一种差分映射方案,以提高ReRAM的容错性,容忍高达一个数量级的故障率。
动态流式传输模型参数的优势是什么?
动态流式传输模型参数可以实现可扩展和动态分布式CNN推断,提升边缘设备性能。