幻觉减轻促进长期视频理解
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用CLIP分数指导带有问题的帧采样过程,并将问题信息注入到图像Q-former的查询中以获取更重要的视觉特征。在MovieChat数据集上取得了84.2%和62.9%的全局和断点模式准确率,超过了官方基线模型的29.1%和24.1%,在CVPR LOVEU 2024长期视频问答挑战中获得了第三名。
🎯
关键要点
- 提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法。
- 使用CLIP分数指导带有问题的帧采样过程。
- 将问题信息注入到图像Q-former的查询中以获取更重要的视觉特征。
- 在MovieChat数据集上取得了84.2%和62.9%的全局和断点模式准确率。
- 超过了官方基线模型的29.1%和24.1%。
- 在CVPR LOVEU 2024长期视频问答挑战中获得了第三名。
➡️