面向基于注意力机制的轻量级机器学习的异构加速架构和自动化部署流程

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了在RISC-V平台上实现的全流程Transformer模型推理结果,通过优化算法和硬件设计实现了高速和高效的计算。在编码器模型中,实现了12.8倍的加速比,在解码器模型中实现了35.6倍的加速。与专用加速器相比,实现了2.04倍的FPU利用率。

🎯

关键要点

  • 在RISC-V平台上实现了全流程Transformer模型推理结果。
  • 通过优化算法和硬件设计实现了高速和高效的计算。
  • 编码器模型实现了12.8倍的加速比。
  • 解码器模型在非自回归模式下实现16.1倍加速,自回归模式下实现35.6倍加速。
  • FPU利用率超过79%,294 GFLOPS/W。
  • 与专用加速器相比,实现了2.04倍的FPU利用率。
➡️

继续阅读