【vLLM 学习】Save Sharded State

📝

内容提要

​ vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。 ​

🏷️

标签

➡️

继续阅读