【Triton 教程】triton_language.permute

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

自定义后端允许用户编写推理过程,整合多个模型的逻辑判断,简化调用流程,降低HTTP传输延迟。

🎯

关键要点

  • 自定义backend允许用户编写推理过程。
  • 推理过程通常由模型直接解决,但有时需要包含业务逻辑。
  • 某些推理需要多个模型的输出进行逻辑判断和修改。
  • 传统方法是调用两次triton服务,先获取第一个模型的输出,再调用第二个模型。
  • 自定义backend可以将整个调用过程整合在一起,简化调用流程。
  • 自定义backend还可以降低HTTP传输延迟。
➡️

继续阅读