本研究提出了一种聚焦中心视觉链范式,以提升视觉-语言模型在处理复杂多图像输入时的性能。通过生成高质量数据并构建VISC-150K数据集,实验结果显示该方法在不同模型上平均提高性能3.16%和2.24%。
完成下面两步后,将自动完成登录并继续当前操作。