【Triton 教程】triton_language.permute
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
自定义后端允许用户编写推理过程,整合多个模型的逻辑判断,简化调用流程,降低HTTP传输延迟。
🎯
关键要点
- 自定义backend允许用户编写推理过程。
- 推理过程通常由模型直接解决,但有时需要包含业务逻辑。
- 某些推理需要多个模型的输出进行逻辑判断和修改。
- 传统方法是调用两次triton服务,先获取第一个模型的输出,再调用第二个模型。
- 自定义backend可以将整个调用过程整合在一起,简化调用流程。
- 自定义backend还可以降低HTTP传输延迟。
➡️