小红花·文摘

本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法，通过使用CLIP分数指导带有问题的帧采样过程，并将问题信息注入到图像Q-former的查询中以获取更重要的视觉特征。在MovieChat数据集上取得了84.2％和62.9％的全局和断点模式准确率，超过了官方基线模型的29.1％和24.1％，在CVPR LOVEU 2024长期视频问答挑战中获得了第三名。