李文举 ·

bert推理优化之路

💡 原文中文，约900字，阅读约需2分钟。

📝

内容提要

文章讨论了如何通过GPU和TensorRT优化学员课程评论情感分析模型的推理性能。最初使用CPU时预测耗时较长，转向GPU后性能显著提升，使用FP16进一步优化，预测时间降至2ms，同时保持了精确度，最终选择该方案进行部署。

🎯

🔎

在推理性能的优化过程中，GPU相较于CPU展现出显著的优势。文章中提到，使用CPU时，batch size为1的预测耗时高达90ms，而转向GPU后，耗时降至8ms。这一变化不仅提升了效率，也为后续的模型优化奠定了基础。

使用TensorRT进行推理加速时，FP16模式的表现尤为突出。文章指出，使用FP16后，batch size为1的预测耗时仅为2ms，且精确度保持不变。这表明，选择合适的加速技术能够在不牺牲模型性能的前提下，显著提升推理速度。

在推理优化的过程中，技术选型至关重要。文章中提到，虽然FP32模式也能提升性能，但相较于FP16的效果有限。因此，在进行模型部署时，需仔细评估不同技术的实际效果，以选择最优方案。

❓

通过将模型部署到GPU服务器上，并使用onnxruntime GPU版本进行推理，可以显著提升性能。

使用CPU时，batch size为1时预测耗时约90ms，batch size为10时约600ms。

使用TensorRT FP16后，batch size为1时预测耗时降至2ms，batch size为10时降至10ms，且精确度保持不变。

在GPU上使用onnxruntime时，batch size为1时预测耗时约8ms，batch size为10时约40ms，性能提升了11-15倍。

选择FP16方案是因为其在保持精确度的同时，显著降低了预测耗时，解决了性能瓶颈问题。

使用TensorRT FP32时，batch size为1时预测耗时约5ms，batch size为10时约30ms，性能提升有限。

🏷️