【vLLM 学习】Vision Language Multi Image
💡
原文中文,约16400字,阅读约需40分钟。
📝
内容提要
该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。
🎯
关键要点
- 该示例展示了如何使用vLLM在视觉语言模型上执行离线推理。
- 支持处理多图像输入并生成文本。
- 使用模型定义的对话模板进行文本生成。
- 提供了多个模型的加载函数,如load_aria、load_deepseek_vl2等。
- 每个模型的加载函数配置了不同的引擎参数和提示格式。
- 示例中包含了如何处理图像数据和生成文本的具体实现。
- 提供了生成和聊天两种方法供用户选择。
- 用户可以通过命令行参数指定模型类型和方法。
❓
延伸问答
vLLM是什么?
vLLM是一个用于视觉语言模型的框架,支持离线推理和多图像输入处理。
如何使用vLLM处理多图像输入?
使用vLLM时,可以通过加载不同的模型并指定图像URL来处理多图像输入。
vLLM支持哪些模型?
vLLM支持多个模型,如Aria、Deepseek VL2、Gemma3等,每个模型有不同的加载函数。
如何生成文本?
可以通过调用vLLM的生成方法,传入问题和图像数据来生成文本。
vLLM的对话模板有什么作用?
对话模板用于定义生成文本的格式,使得生成的文本更符合对话的上下文。
如何选择模型和方法?
用户可以通过命令行参数指定所需的模型类型和生成或聊天的方法。
➡️