MixQuant：混合精度量化与位宽优化搜索

量化是一种用于创建高效深度神经网络的技术，可以通过以低于 32 位浮点精度的比特宽度执行计算和存储张量来减小模型大小和推理延迟，但量化可能导致舍入误差引起的数值不稳定性，降低量化模型的准确性，而 MixQuant 则是一种搜索算法，根据舍入误差为每个层权重找到最佳的自定义量化比特宽度。

该论文提出了一种混合精度搜索方法，通过可微分搜索算法和硬件感知优化算法来寻找特定硬件目标上的优化后的混合精度配置，以减少模型大小、延迟并保持统计准确性。该方法在 MobileNetV1 和 MobileNetV2 上进行了评估，在多核 RISC-V 微控制器平台上展示了与 8 位模型相比高达 28.6% 的端到端延迟降低，并在没有对子字节算术支持的系统上也能实现加速。同时，在减少二进制运算次数方面也表现出优越性。