面向基于注意力机制的轻量级机器学习的异构加速架构和自动化部署流程
原文中文,约400字,阅读约需1分钟。发表于: 。我们使用异构架构模板将 RISC-V 处理器与硬件加速器相结合,并通过自动化部署流程解决 Tiny Machine Learning(tinyML)面临的挑战,实现了小型 ML 功耗包络中基于 Attention 的模型。我们的部署流程使得端到端的 8 位 MobileBERT 在能效方面达到领先水平,能够以 2960 GOp/J 的吞吐量和 154 GOp/s 的 32.5...
该文章介绍了在RISC-V平台上实现的全流程Transformer模型推理结果,通过优化算法和硬件设计实现了高速和高效的计算。在编码器模型中,实现了12.8倍的加速比,在解码器模型中实现了35.6倍的加速。与专用加速器相比,实现了2.04倍的FPU利用率。