小红花·文摘

本文介绍了一种优化低延迟语言模型（LLM）serving性能的方法，通过引入预填充-解码解耦的方法，构建了一个系统原型DistServe，显著提高了吞吐量并满足时延约束。DistServe正在集成到vLLM中。