【vLLM 学习】Vision Language Multi Image

💡 原文中文,约16400字,阅读约需40分钟。
📝

内容提要

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。

🎯

关键要点

  • 该示例展示了如何使用vLLM在视觉语言模型上执行离线推理。
  • 支持处理多图像输入并生成文本。
  • 使用模型定义的对话模板进行文本生成。
  • 提供了多个模型的加载函数,如load_aria、load_deepseek_vl2等。
  • 每个模型的加载函数配置了不同的引擎参数和提示格式。
  • 示例中包含了如何处理图像数据和生成文本的具体实现。
  • 提供了生成和聊天两种方法供用户选择。
  • 用户可以通过命令行参数指定模型类型和方法。

延伸问答

vLLM是什么?

vLLM是一个用于视觉语言模型的框架,支持离线推理和多图像输入处理。

如何使用vLLM处理多图像输入?

使用vLLM时,可以通过加载不同的模型并指定图像URL来处理多图像输入。

vLLM支持哪些模型?

vLLM支持多个模型,如Aria、Deepseek VL2、Gemma3等,每个模型有不同的加载函数。

如何生成文本?

可以通过调用vLLM的生成方法,传入问题和图像数据来生成文本。

vLLM的对话模板有什么作用?

对话模板用于定义生成文本的格式,使得生成的文本更符合对话的上下文。

如何选择模型和方法?

用户可以通过命令行参数指定所需的模型类型和生成或聊天的方法。

➡️

继续阅读