通过混合预填充/解码/验证调度在高效元内核上应对生产大语言模型服务系统中的动态性
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了在生产级大语言模型(LLM)服务系统中,由于动态和不可预测的输入输出长度而导致的工作负载变异性问题。通过引入XY-Serve系统,本研究提出了一种分解计算的抽象机制,显著提高了在AI加速器上的效率,实验结果表明,相较于现有基准,系统在端到端吞吐量上提升了高达89%。
本研究提出XY-Serve系统,解决了生产级大语言模型服务中的工作负载变异性问题,显著提升了AI加速器效率,端到端吞吐量提高了89%。