本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用CLIP分数指导带有问题的帧采样过程,并将问题信息注入到图像Q-former的查询中以获取更重要的视觉特征。在MovieChat数据集上取得了84.2%和62.9%的全局和断点模式准确率,超过了官方基线模型的29.1%和24.1%,在CVPR LOVEU 2024长期视频问答挑战中获得了第三名。
完成下面两步后,将自动完成登录并继续当前操作。