在一个开源的 RISC-V 多微核平台上优化基础模型推理
该研究在RISC-V平台上实现了Transformer模型推理结果,通过分布式Softmax原语、ISA扩展、SIMD浮点操作和指令重复以及DMA引擎来提高性能。编码器模型实现了高达12.8倍的加速比,解码器模型在非自回归模式下实现了16.1倍的加速,自回归模式下实现了35.6倍的加速。与SoA专用加速器相比,FPU利用率提高了2.04倍。
原文中文,约500字,阅读约需2分钟。
该研究在RISC-V平台上实现了Transformer模型推理结果,通过分布式Softmax原语、ISA扩展、SIMD浮点操作和指令重复以及DMA引擎来提高性能。编码器模型实现了高达12.8倍的加速比,解码器模型在非自回归模式下实现了16.1倍的加速,自回归模式下实现了35.6倍的加速。与SoA专用加速器相比,FPU利用率提高了2.04倍。