模型压缩和推理加速 (Model Compression & Inference Acceleration)
原文约4500字/词,阅读约需11分钟。发表于: 。随着深度神经网络模型的复杂度越来越高,除了训练阶段需要大量算力外,模型推理阶段也较多的资源。在深度学习落地应用中,受部署环境的影响,尤其是在边缘计算场景中,有限的计算资源成为了复杂模型的应用壁垒。 复杂模型的部署问题突出表现在三个方面,如下图所示: 速度:实时响应效率的要求,过长的响应耗时会严重影响用户体验。 存储:有限的内存空间要求,无法加载超大模型的权重从而无法使用模型。 能耗:移动...
随着深度神经网络模型复杂度的增加,模型压缩和推理加速变得越来越重要。剪裁和量化是常用的模型压缩方法,神经结构搜索可以自动化解决网络设计问题。知识蒸馏可以迁移复杂教师模型的知识到简单学生模型中。推理加速方法包括硬件加速和并行计算。可供使用的库有TensorRT、Triton、OpenVINO、Paddle Inference等。