小红花·文摘

该研究提出了一种新颖的框架，通过引入双重聚焦机制，提升了视觉-语言任务的性能。该模型利用图像信息和问题响应，通过识别合适的子区域进行深入分析，减少了大型语言模型中的幻觉现象，提高了各种视觉-语言任务的性能。