vLLM Blog ·

vLLM-Omni扩散缓存加速

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

vLLM-Omni更新了性能，支持Cache-DiT和TeaCache等缓存加速方法，显著提升扩散模型推理速度，图像生成速度提高1.5到2倍，质量损失极小。Cache-DiT在图像编辑任务中表现尤为突出，速度提升可达2.38倍。

🎯

🔎

vLLM-Omni引入的Cache-DiT和TeaCache缓存加速方法，能够显著提升扩散模型的推理速度，尤其在图像生成和编辑任务中表现突出。通过智能缓存中间计算结果，用户可以在不牺牲图像质量的情况下，享受高达2.38倍的速度提升，这对于需要快速迭代的应用场景尤为重要。

在选择Cache-DiT和TeaCache时，用户应考虑具体需求。Cache-DiT提供更高级的控制和性能优化，适合对速度和效率有高要求的用户；而TeaCache则更为简单和自适应，适合快速上手和动态调整的场景。根据项目的复杂性和资源需求，合理选择缓存后端将有助于提升整体工作效率。

扩散模型的计算成本较高，生成单个图像需要多个推理步骤。相邻步骤处理相似特征的特性使得缓存技术尤为重要。vLLM-Omni通过避免重复计算，降低了资源消耗，这对于资源有限的开发者来说，能够有效提升工作效率，减少时间和成本投入。

❓

vLLM-Omni更新了性能，支持Cache-DiT和TeaCache等缓存加速方法，显著提升扩散模型推理速度。

使用vLLM-Omni可以将图像生成速度提高1.5到2倍，质量损失极小。

Cache-DiT提供高级控制和最大性能，适合复杂任务；而TeaCache则是简单且自适应的缓存机制，动态决定何时重用计算。

Cache-DiT在图像编辑任务中表现尤为突出，速度提升可达2.38倍。

在vLLM-Omni中使用缓存加速非常简单，只需在初始化时定义cache_backend。

vLLM-Omni支持的模型包括Qwen-Image和Qwen-Image-Edit，TeaCache和Cache-DiT均可用。

🏷️