【vLLM 学习】视觉语言多图像
💡
原文英文,约1400词,阅读约需5分钟。
📝
内容提要
该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。
🎯
关键要点
-
该示例展示了如何使用vLLM在视觉语言模型上执行离线推理。
-
支持处理多图像输入并生成文本。
-
使用模型定义的对话模板进行文本生成。
-
提供了多个模型的加载函数,如load_aria、load_deepseek_vl2等。
-
每个模型的加载函数配置了不同的引擎参数和提示格式。
-
示例中包含了如何处理图像数据和生成文本的具体实现。
-
提供了生成和聊天两种方法供用户选择。
-
用户可以通过命令行参数指定模型类型和方法。
➡️