小红花·文摘

该研究提出了一种新的框架，通过双重聚焦机制提升了视觉-语言任务的性能。该模型综合考虑全局、细节和综合因素，利用图像信息和问题响应进行深入分析，减少了幻觉现象，并提高了各种视觉-语言任务的性能。