小红花·文摘

本研究提出流文本与图像插入任务（FTII），通过FTII-Bench基准评估大视觉语言模型在复杂场景中的表现。结果显示，即使是最先进的模型也面临挑战，表明多模态理解能力有待提升。