HyperAI超神经 ·

【vLLM 学习】Vision Language

💡 原文中文，约27000字，阅读约需65分钟。

📝

内容提要

本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。

🎯

关键要点

本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。
对于大多数模型，提示格式应参照HuggingFace模型库中对应的示例格式。
示例代码展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。
注意：默认的max_num_seqs和max_model_len可能会导致低端GPU出现内存溢出。
每个模型的提示格式和参数设置可能有所不同，需根据具体模型进行调整。
提供了多种模型的示例函数，包括Aria、BLIP-2、Chameleon等。
每个模型的函数中都包含了模型名称、引擎参数和提示格式的设置。
在使用模型时，需确保输入数据的模态（图像或视频）与模型要求一致。
支持的输入模态包括图像和视频，且每种模态的处理方式不同。
提供了一个主函数main，用于解析命令行参数并执行模型推理。
在推理过程中，可以选择是否使用不同的提示，或在批处理推理中使用相同的图像。
通过设置温度参数，可以控制生成文本的多样性。
支持的模型类型包括llava、blip-2、gemma3等，用户可以根据需求选择。

❓

延伸问答

如何使用vLLM进行离线推理？

使用vLLM进行离线推理时，需要采用正确的提示格式进行文本生成，并参考HuggingFace模型库中的示例格式。

在使用vLLM时，如何设置模型参数？

模型参数设置应根据具体模型进行调整，示例代码中提供了多种模型的提示格式和参数设置。

vLLM支持哪些输入模态？

vLLM支持的输入模态包括图像和视频，且每种模态的处理方式不同。

使用vLLM时如何避免内存溢出？

应注意默认的max_num_seqs和max_model_len设置，可能会导致低端GPU出现内存溢出，建议根据GPU性能调整这些参数。

vLLM中如何控制生成文本的多样性？

可以通过设置温度参数来控制生成文本的多样性，温度越高，生成的文本越多样。

vLLM支持哪些模型类型？

vLLM支持的模型类型包括llava、blip-2、gemma3等，用户可以根据需求选择合适的模型。

🏷️

继续阅读

2026 Apple 设计奖正式揭晓，细数 12 款 App 的特别之处
苹果设计大奖公布了2026年获奖名单，涵盖乐趣、多元、创新、互动、社会影响和视觉六大类。获奖作品包括《grug》、《Is This Seat Taken?...
从感知智能到智能体 AI：高通汽车中国布局深化加速
高通汽车业务在2026财年第二季度营收达13亿美元，同比增长38%。预计年收入将突破60亿美元。高通与多家企业合作，推动智能体技术，提升汽车AI能力。其核...
别乱加设置开关，你的软件就是这么烂掉的
文章探讨了软件开发中配置开关的过度使用如何导致复杂性和维护困难。虽然开关最初提供灵活性，但随着时间推移，它们成为维护负担，增加了Bug和用户困惑。作者建议...
企业文档安全最佳实践（一）：告别混乱，从“分类分级与密级标识”开始
在数字化办公时代，企业文档管理面临挑战。有效的文档安全策略应通过分类分级和密级标识实施，将文档分为五个安全等级，并制定相应保护措施，以提高效率、降低风险并...
明天高考了
博客已建立1508天，作者从初二升至高中毕业，感慨时光流逝。
车窗玻璃越厚越好？陶琳科普释疑，雷军：与特斯拉方案一致
小米汽车表示，车窗玻璃的隔音和强度不仅仅依赖于厚度，还需综合考虑多种性能。以小米YU7和SU7为例，采用1.1mm化学钢化玻璃和PVB夹胶层，确保安全与轻...