本文介绍了一种优化低延迟语言模型(LLM)serving性能的方法,通过引入预填充-解码解耦的方法,构建了一个系统原型DistServe,显著提高了吞吐量并满足时延约束。DistServe正在集成到vLLM中。
完成下面两步后,将自动完成登录并继续当前操作。