通过混合预填充/解码/验证调度在高效元内核上应对生产大语言模型服务系统中的动态性

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出XY-Serve系统,解决了生产级大语言模型服务中的工作负载变异性问题,显著提升了AI加速器效率,端到端吞吐量提高了89%。

🎯

关键要点

  • 本研究提出XY-Serve系统,解决了生产级大语言模型服务中的工作负载变异性问题。
  • 工作负载变异性问题源于动态和不可预测的输入输出长度。
  • 引入了一种分解计算的抽象机制,显著提高了AI加速器的效率。
  • 实验结果显示,系统在端到端吞吐量上提升了高达89%。
➡️

继续阅读