该示例展示了如何使用vLLM在视觉语言模型上进行离线推理,处理多图像输入并生成文本,利用模型定义的对话模板。
本研究提出了一种聚焦中心视觉链范式,以提升视觉-语言模型在处理复杂多图像输入时的性能。通过生成高质量数据并构建VISC-150K数据集,实验结果显示该方法在不同模型上平均提高性能3.16%和2.24%。
完成下面两步后,将自动完成登录并继续当前操作。