在一个开源的 RISC-V 多微核平台上优化基础模型推理

通过实现分布式 Softmax 原语并利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复，以及专门的 DMA 引擎来最小化昂贵的主内存访问和容忍其延迟，在开源的 RISC-V 平台上呈现了第一批全流程的 Transformer 模型推理结果。对于仅编码器模型，我们展示了最优实现与基线版本之间高达 12.8 倍的加速比；同时在 HW 平台上实现可比较的计算单位吞吐量，FPU 利用率超过...

该研究在RISC-V平台上实现了Transformer模型推理结果，通过分布式Softmax原语、ISA扩展、SIMD浮点操作和指令重复以及DMA引擎来提高性能。编码器模型实现了高达12.8倍的加速比，解码器模型在非自回归模式下实现了16.1倍的加速，自回归模式下实现了35.6倍的加速。与SoA专用加速器相比，FPU利用率提高了2.04倍。

FPU利用率 RISC-V平台 Transformer模型加速比开源性能提升