通过混合预填充/解码/验证调度在高效元内核上应对生产大语言模型服务系统中的动态性
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出XY-Serve系统,解决了生产级大语言模型服务中的工作负载变异性问题,显著提升了AI加速器效率,端到端吞吐量提高了89%。
🎯
关键要点
- 本研究提出XY-Serve系统,解决了生产级大语言模型服务中的工作负载变异性问题。
- 工作负载变异性问题源于动态和不可预测的输入输出长度。
- 引入了一种分解计算的抽象机制,显著提高了AI加速器的效率。
- 实验结果显示,系统在端到端吞吐量上提升了高达89%。
➡️