LoL-PIM:具有可扩展DRAM-PIM系统的长时序LLM解码
📝
内容提要
本研究解决了大型语言模型(LLM)在处理长时序任务时面临的内存带宽不足的问题。提出了LoL-PIM,一个硬件与软件协同设计的多节点PIM架构,通过管道并行化和动态内存管理,实现了对长时序LLM的高效加速。实验结果表明,LoL-PIM在长时序LLM推理中显著提高了吞吐量,降低了延迟,与现有多GPU和GPU-PIM系统相比,速度提升可达8.54倍和16.0倍,从而有效支持LLM在实际应用中的部署。
➡️