Tackling the Dynamicity in Production Large Language Model Serving Systems via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了XY-Serve系统,针对生产级大语言模型服务系统中的动态性问题,通过混合预填充/解码/验证调度机制,显著提高了AI加速器上的效率,端到端吞吐量提升高达89%。

🎯

关键要点

  • 本研究提出了XY-Serve系统,旨在解决生产级大语言模型服务系统中的动态性问题。
  • 研究通过混合预填充/解码/验证调度机制,显著提高了AI加速器上的效率。
  • 实验结果显示,XY-Serve系统在端到端吞吐量上提升高达89%。
  • 动态和不可预测的输入输出长度导致了工作负载的变异性问题,影响了系统性能。
➡️

继续阅读