加速器驱动的数据排列在多核架构上最小化变压器运行时间

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

提出了一种新的内存数据排列策略,通过硬件加速器的内核大小来减小芯片外数据访问,特别适用于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理。实验证明该方法能够实现高达2.8倍的速度提升。

🎯

关键要点

  • 提出了一种新的内存数据排列策略。
  • 该策略通过硬件加速器的内核大小来减小芯片外数据访问。
  • 特别适用于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理。
  • 实验证明该方法能够实现高达2.8倍的速度提升。
  • 在单核和多核系统中实现和评估了该加速器驱动的数据排列方法。
➡️

继续阅读