半精度推理使设备端推理性能翻倍

Posted by Marat Dukhan and Frank Barchard, Software Engineers CPUs deliver the widest reach for ML inference and remain the default target for TensorFlow Lite. Consequently, improving CPU...

TensorFlow Lite的XNNPack后端通过启用半精度推理,将ARM CPU上的浮点推理性能提高了一倍。这使得可以在旧款和低端设备上部署基于人工智能的功能。半精度(FP16)浮点数在易用性和性能之间提供了平衡,相比传统的FP32推理,速度提高了2倍。移动芯片中对FP16计算的硬件支持使得这一切成为可能。基准测试显示,在各种神经网络架构和移动设备上,接近2倍的速度提升。要在XNNPack中使用半精度推理,需要提供具有FP16权重和特殊元数据的浮点模型。XNNPack代理还提供了强制使用FP16推理的选项。未来的工作包括优化支持原生FP16算术的英特尔处理器的XNNPack。

原文英文,约1000词,阅读约需4分钟。发表于:
阅读原文