小红花·文摘

TensorFlow Lite的XNNPack后端通过启用半精度推理，将ARM CPU上的浮点推理性能提高了一倍。这使得可以在旧款和低端设备上部署基于人工智能的功能。半精度（FP16）浮点数在易用性和性能之间提供了平衡，相比传统的FP32推理，速度提高了2倍。移动芯片中对FP16计算的硬件支持使得这一切成为可能。基准测试显示，在各种神经网络架构和移动设备上，接近2倍的速度提升。要在XNNPack中使用半精度推理，需要提供具有FP16权重和特殊元数据的浮点模型。XNNPack代理还提供了强制使用FP16推理的选项。未来的工作包括优化支持原生FP16算术的英特尔处理器的XNNPack。