硬件感知的CNN加速器剪枝方法

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为unzipFPGA的CNN推断系统,通过引入权重生成模块实现了芯片上的实时权重生成,提供了对小容量内存限制的层的更好支持。同时,还介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备搭配,实现了更好的准确性和性能平衡。最后,引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。该系统在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升,并具有高达3.94倍的性能密度。

🎯

关键要点

  • 介绍了一种名为unzipFPGA的CNN推断系统。

  • 通过引入权重生成模块,实现了芯片上的实时权重生成。

  • 为小容量内存限制的层提供了更好的支持。

  • 介绍了一种自动化硬件感知的方法,将权重生成机制与目标CNN设备搭配。

  • 实现了更好的准确性和性能平衡。

  • 引入了一种输入选择性处理单元(PE)设计,平衡了子优化映射层的负载。

  • 在相同功耗约束下,与高度优化的GPU设计相比,实现了平均2.57倍的性能效率提升。

  • 在各种最先进的基于FPGA的CNN加速器中具有高达3.94倍的性能密度。

➡️

继续阅读