飞桨实现插件式硬件图接入方案,模型推理加速2.2倍

对于一个融合后的OP,真正执行时需要多个硬件kernel 完成,厂商通过kernel 融合技术将部分硬件kernel 融为一个,减少了engine_op 内部的硬件kernel 数量(从159 个下降到58 个),从而减少了硬件调度开销和kernel 执行的IO 开销。成为具有执行硬件信息的kernel Program,执行器将按照kernel Program 中的OP...

发表于:
阅读原文