【vLLM 学习】视觉语言多图像

💡 原文英文,约1400词,阅读约需5分钟。
📝

内容提要

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。

🎯

关键要点

  • 该示例展示了如何使用vLLM在视觉语言模型上执行离线推理。

  • 支持处理多图像输入并生成文本。

  • 使用模型定义的对话模板进行文本生成。

  • 提供了多个模型的加载函数,如load_aria、load_deepseek_vl2等。

  • 每个模型的加载函数配置了不同的引擎参数和提示格式。

  • 示例中包含了如何处理图像数据和生成文本的具体实现。

  • 提供了生成和聊天两种方法供用户选择。

  • 用户可以通过命令行参数指定模型类型和方法。

➡️

继续阅读