在一个开源的 RISC-V 多微核平台上优化基础模型推理

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该研究在RISC-V平台上实现了Transformer模型推理结果,通过分布式Softmax原语、ISA扩展、SIMD浮点操作和指令重复以及DMA引擎来提高性能。编码器模型实现了高达12.8倍的加速比,解码器模型在非自回归模式下实现了16.1倍的加速,自回归模式下实现了35.6倍的加速。与SoA专用加速器相比,FPU利用率提高了2.04倍。

🎯

关键要点

  • 该研究在RISC-V平台上实现了Transformer模型推理结果。

  • 通过分布式Softmax原语、ISA扩展、SIMD浮点操作和指令重复以及DMA引擎来提高性能。

  • 编码器模型实现了高达12.8倍的加速比。

  • 解码器模型在非自回归模式下实现了16.1倍的加速,自回归模式下实现了35.6倍的加速。

  • 与SoA专用加速器相比,FPU利用率提高了2.04倍。

➡️

继续阅读