在一个开源的 RISC-V 多微核平台上优化基础模型推理
原文中文,约500字,阅读约需2分钟。发表于: 。通过实现分布式 Softmax 原语并利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复,以及专门的 DMA 引擎来最小化昂贵的主内存访问和容忍其延迟,在开源的 RISC-V 平台上呈现了第一批全流程的 Transformer 模型推理结果。对于仅编码器模型,我们展示了最优实现与基线版本之间高达 12.8 倍的加速比;同时在 HW 平台上实现可比较的计算单位吞吐量,FPU 利用率超过...
该研究在RISC-V平台上实现了Transformer模型推理结果,通过分布式Softmax原语、ISA扩展、SIMD浮点操作和指令重复以及DMA引擎来提高性能。编码器模型实现了高达12.8倍的加速比,解码器模型在非自回归模式下实现了16.1倍的加速,自回归模式下实现了35.6倍的加速。与SoA专用加速器相比,FPU利用率提高了2.04倍。