HyperAI超神经 ·

【vLLM 学习】Vision Language Multi Image

💡 原文中文，约16400字，阅读约需40分钟。

📝

内容提要

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理，处理多图像输入并生成文本，利用模型定义的对话模板。

🎯

关键要点

该示例展示了如何使用vLLM在视觉语言模型上执行离线推理。
支持处理多图像输入并生成文本。
使用模型定义的对话模板进行文本生成。
提供了多个模型的加载函数，如load_aria、load_deepseek_vl2等。
每个模型的加载函数配置了不同的引擎参数和提示格式。
示例中包含了如何处理图像数据和生成文本的具体实现。
提供了生成和聊天两种方法供用户选择。
用户可以通过命令行参数指定模型类型和方法。

❓

延伸问答

vLLM是什么？

vLLM是一个用于视觉语言模型的框架，支持离线推理和多图像输入处理。

如何使用vLLM处理多图像输入？

使用vLLM时，可以通过加载不同的模型并指定图像URL来处理多图像输入。

vLLM支持哪些模型？

vLLM支持多个模型，如Aria、Deepseek VL2、Gemma3等，每个模型有不同的加载函数。

如何生成文本？

可以通过调用vLLM的生成方法，传入问题和图像数据来生成文本。

vLLM的对话模板有什么作用？

对话模板用于定义生成文本的格式，使得生成的文本更符合对话的上下文。

如何选择模型和方法？

用户可以通过命令行参数指定所需的模型类型和生成或聊天的方法。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
23学习周刊-总第266期-2026年第23周
本周刊聚焦运维、Go语言和Vue技术生态，推荐多个优秀项目，包括基于SwiftUI的Mac终端应用muxy、轻量级剪贴板管理器Buffer和Rust开发的...
KVarN：华为用于KVCache量化的原生vLLM后端
华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持...
华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
华为云在上海INSPIRE大会上发布了Agentic Infra新范式及多款Agentic AI产品，旨在推动企业智能化转型。大会还推出“行业AI梦工厂”...
史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。