小红花·文摘 - 小红花技术领袖俱乐部

该示例展示了如何使用vLLM在视觉语言模型上进行离线推理，处理多图像输入并生成文本，利用模型定义的对话模板。

【vLLM 学习】Vision Language Multi Image

HyperAI超神经 ·

本研究提出了一种聚焦中心视觉链范式，以提升视觉-语言模型在处理复杂多图像输入时的性能。通过生成高质量数据并构建VISC-150K数据集，实验结果显示该方法在不同模型上平均提高性能3.16%和2.24%。

Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains

BriefGPT - AI 论文速递 ·