学习让我快乐 ·

vllm 中 async scheduling

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

vLLM 的异步调度实现较为复杂，本文通过具体查询请求模拟调度器与工作者的执行流程，并标注关键状态变化。分析指出，调度过程中的状态假设可能导致错误，需进行状态矫正。建议在解码阶段仅维护输出令牌数量，以简化调度器的状态管理。

🎯

🔎

vLLM 的异步调度实现复杂，主要是由于调度器和工作者之间的状态假设。调度器在执行过程中依赖于假设状态，这可能导致错误。因此，理解调度流程中的每一步及其状态变化至关重要，尤其是在调试和优化时。

在 vLLM 的异步调度中，状态矫正是确保系统正常运行的关键。由于调度器和工作者之间的状态不一致，可能会导致执行错误。开发者需要特别关注状态的更新和矫正逻辑，以避免潜在的 bug 和性能问题。

文章建议在解码阶段仅维护输出令牌数量，以简化调度器的状态管理。这一做法可以减少调度器的复杂性，提高系统的稳定性和效率，尤其是在处理大量请求时，值得开发者考虑实施。

❓

vLLM 的异步调度实现复杂，主要体现在调度器与工作者的执行流程需要手动模拟，并且调度过程中的状态假设可能导致错误。

状态假设可能导致调度过程中的错误，因此需要进行状态矫正以确保准确性。

建议在解码阶段仅维护输出令牌数量，以简化调度器的状态管理。

发现了 3 个 bug，主要是由于状态矫正不足导致的。

vLLM v1 的初衷是统一处理 prefill、chunked prefill 和 decode。

引入异步调度后，worker 侧行为变得不确定，增加了复杂性。

🏷️