OHQ: 在芯片上的硬件感知量化

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种在芯片上进行硬件感知的混合精度量化(OHQ)框架,通过构建量化感知管道和基于掩码的量化估计技术,实现了从硬件感知的混合精度量化。OHQ 在不需要额外计算设备和数据访问的情况下,对各种体系结构和压缩比率进行了量化推理,为 ResNet-18 和 MobileNetV3 分别实现了 70%和 73%的准确率,并且相较于部署中的 INT8,减少了 15~30%的延迟。

🎯

关键要点

  • 提出了一种在芯片上进行硬件感知的混合精度量化(OHQ)框架。
  • OHQ 通过构建量化感知管道(OQA)和基于掩码的量化估计(MQE)技术实现混合精度量化。
  • 通过线性规划获得优化的位宽配置,结合网络和硬件的见解。
  • OHQ 在无需额外计算设备和数据访问的情况下进行量化推理。
  • 为 ResNet-18 和 MobileNetV3 实现了 70% 和 73% 的准确率。
  • 相较于部署中的 INT8,OHQ 减少了 15% 至 30% 的延迟。
➡️

继续阅读