本研究提出流文本与图像插入任务(FTII),通过FTII-Bench基准评估大视觉语言模型在复杂场景中的表现。结果显示,即使是最先进的模型也面临挑战,表明多模态理解能力有待提升。
完成下面两步后,将自动完成登录并继续当前操作。