PAPI:利用动态并行性进行大语言模型解码的处理内存计算系统
📝
内容提要
本研究解决了大语言模型解码过程中的性能瓶颈,尤其是静态内核映射导致的效率低下。通过提出PAPI架构,本文动态调度计算和内存绑定内核到合适的硬件单元,以克服传统方法的限制。实验结果显示,PAPI在三个常用的大语言模型上分别取得了1.8倍和11.1倍的加速,展示了其显著的潜在影响。
➡️
本研究解决了大语言模型解码过程中的性能瓶颈,尤其是静态内核映射导致的效率低下。通过提出PAPI架构,本文动态调度计算和内存绑定内核到合适的硬件单元,以克服传统方法的限制。实验结果显示,PAPI在三个常用的大语言模型上分别取得了1.8倍和11.1倍的加速,展示了其显著的潜在影响。