小红花·文摘

本研究评估了大型视觉语言模型在处理跨语言文本丰富图像时的表现差距，提出了XT-VQA基准测试模型能力，并通过MVCL-MI方法优化了视觉与文本的跨语言互信息对齐，提升了跨语言理解能力，具有重要应用价值。