京东科技开发者 ·

9n-triton部署bert模型实战经验

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

本文介绍了算法工程师解决Python部署线上服务性能问题的经验，使用Nvidia的triton部署框架将深度学习模型部署至九数中台，性能提升了337%。文章列举了Python后端部署问题，包括性能低、多线程困难、内存占用过多等。作者选择了使用triton部署算法模型来解决这些问题，摒弃传统镜像部署方式。文章详细介绍了部署流程和注意事项，并给出了代码示例。最后，作者总结了使用triton框架部署torchscript方式的优势。

🎯

关键要点

算法工程师使用Python部署线上服务性能差，探索Nvidia的triton框架提升性能337%。
Python后端部署存在性能低、多线程困难、内存占用过多等问题。
选择triton框架替代传统镜像部署方式，简化部署流程。
使用fine-tune的Bert模型进行文本分类任务，部署至公网可访问。
模型保存为onnx或torchscript格式，最终选择.pt文件。
转onnx需要额外安装transformers-onnx包，建议本地转换。
九数triton部署仅支持gpu推理，需在特定环境下生成pt文件。
模型目录格式需严格按照要求，包含model.pt和config.pbtxt。
模型注册后可进行部署和测试，确保接口通畅后可转生产。
基于Bert模型的finetune结果部署，推理速度增幅超过300%。

❓

延伸问答

使用triton框架部署模型有什么优势？

使用triton框架可以显著提升模型推理性能，本文提到性能提升达337%。

Python后端部署存在哪些主要问题？

主要问题包括性能低、多线程困难和内存占用过多。

如何将Bert模型转换为.pt文件？

可以使用torch.jit.trace方法，将训练好的模型保存为.pt文件格式。

triton部署模型时需要注意哪些目录格式？

模型目录需包含model.pt和config.pbtxt，格式需严格按照要求。

在triton中，如何测试模型是否成功部署？

可以通过post接口在notebook中测试接口通不通，确保模型正常工作。

转换onnx文件时需要注意什么？

需要额外安装transformers-onnx包，并建议在本地转换。

🏷️