硬件感知的CNN加速器剪枝方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种名为unzipFPGA的CNN推断系统,通过引入权重生成模块实现了芯片上的实时权重生成,提供了对小容量内存限制的层的更好支持。同时,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备搭配,实现了更好的准确性和性能平衡。最后,引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该系统在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升,并具有高达3.94倍的性能密度。
🎯
关键要点
-
介绍了一种名为unzipFPGA的CNN推断系统。
-
通过引入权重生成模块,实现了芯片上的实时权重生成。
-
为小容量内存限制的层提供了更好的支持。
-
介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备搭配。
-
实现了更好的准确性和性能平衡。
-
引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。
-
在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升。
-
在各种最先进的基于FPGA的CNN加速器中具有高达3.94倍的性能密度。
➡️