【vLLM 学习】Multilora Inference
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
该示例展示了如何使用多路线功能进行离线推理,需HuggingFace凭证访问Llama2,并使用LoRA适配器进行SQL查询。
🎯
关键要点
- 该示例展示了如何使用多路线功能进行离线推理。
- 需要 HuggingFace 凭证才能访问 Llama2。
- 创建包含采样参数的测试提示列表,包括基准模型和 LoRA 请求。
- 定义了两个不同的 LoRA 适配器,预计使用第二个适配器的请求将在第一个适配器的请求完成后运行。
- 持续处理提示列表并处理输出。
- 初始化 LLMEngine,设置 LoRA 的数量和内存使用参数。
- 主函数设置并运行提示处理。
❓
延伸问答
如何使用多路线功能进行离线推理?
可以通过创建包含采样参数的测试提示列表,并使用LoRA适配器进行请求来实现多路线功能的离线推理。
访问Llama2需要什么条件?
需要HuggingFace凭证才能访问Llama2。
如何创建测试提示列表?
可以通过定义包含基准模型和LoRA请求的元组列表来创建测试提示列表。
LoRA适配器的作用是什么?
LoRA适配器用于在推理过程中处理不同的请求,允许在同一批次中使用多个适配器。
如何初始化LLMEngine?
通过设置模型参数、LoRA数量和内存使用参数来初始化LLMEngine。
主函数的作用是什么?
主函数设置并运行提示处理,负责初始化引擎和处理请求。
➡️