木星:快速且资源高效的边缘设备协作推理生成型大语言模型
📝
内容提要
本研究解决了在边缘设备上进行生成型大语言模型推理时面临的计算资源不足和延迟过长的问题。提出的木星系统采用灵活的流水线架构,针对预填充和自回归解码阶段进行优化,从而提高资源利用率和推理速度。实验结果表明,木星在多种边缘环境下显著优于现有方法,实现了高达26.1倍的端到端延迟减少,同时保持了生成质量。
🏷️
标签
➡️