小红花·文摘

本文介绍了一种通过硬件单元专门化和数据流架构实现大型语言模型加速的方法，实验结果显示在BERT模型方面可以实现16.1倍的加速，在GPT生成推理方面分别实现2.2倍的加速和5.7倍的能效提升。