【vLLM 学习】Multilora Inference

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

该示例展示了如何使用多路线功能进行离线推理,需HuggingFace凭证访问Llama2,并使用LoRA适配器进行SQL查询。

🎯

关键要点

  • 该示例展示了如何使用多路线功能进行离线推理。
  • 需要 HuggingFace 凭证才能访问 Llama2。
  • 创建包含采样参数的测试提示列表,包括基准模型和 LoRA 请求。
  • 定义了两个不同的 LoRA 适配器,预计使用第二个适配器的请求将在第一个适配器的请求完成后运行。
  • 持续处理提示列表并处理输出。
  • 初始化 LLMEngine,设置 LoRA 的数量和内存使用参数。
  • 主函数设置并运行提示处理。

延伸问答

如何使用多路线功能进行离线推理?

可以通过创建包含采样参数的测试提示列表,并使用LoRA适配器进行请求来实现多路线功能的离线推理。

访问Llama2需要什么条件?

需要HuggingFace凭证才能访问Llama2。

如何创建测试提示列表?

可以通过定义包含基准模型和LoRA请求的元组列表来创建测试提示列表。

LoRA适配器的作用是什么?

LoRA适配器用于在推理过程中处理不同的请求,允许在同一批次中使用多个适配器。

如何初始化LLMEngine?

通过设置模型参数、LoRA数量和内存使用参数来初始化LLMEngine。

主函数的作用是什么?

主函数设置并运行提示处理,负责初始化引擎和处理请求。

➡️

继续阅读