小红花·文摘

本研究提出了一种聚焦中心视觉链范式，以提升视觉-语言模型在处理复杂多图像输入时的性能。通过生成高质量数据并构建VISC-150K数据集，实验结果显示该方法在不同模型上平均提高性能3.16%和2.24%。