提出了一种新的内存数据排列策略,通过硬件加速器的内核大小来减小芯片外数据访问,特别适用于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理。实验证明该方法能够实现高达2.8倍的速度提升。
完成下面两步后,将自动完成登录并继续当前操作。