加速器驱动的数据排列在多核架构上最小化变压器运行时间
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
🎯
关键要点
- 提出了一种新的内存数据排列策略。
- 该策略通过硬件加速器的内核大小来减小芯片外数据访问。
- 特别适用于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理。
- 实验证明该方法能够实现高达2.8倍的速度提升。
- 在单核和多核系统中实现和评估了该加速器驱动的数据排列方法。
🏷️
标签
➡️