幻觉减轻促进长期视频理解
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用 CLIP 分数指导带有问题的帧采样过程,并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征,最终在 MovieChat 数据集上取得了 84.2%和 62.9%的全局和断点模式准确率,超过了官方基线模型的 29.1%和 24.1%,在 CVPR LOVEU 2024 长期视频问答挑战中获得了第三名。
本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用CLIP分数指导带有问题的帧采样过程,并将问题信息注入到图像Q-former的查询中以获取更重要的视觉特征。在MovieChat数据集上取得了84.2%和62.9%的全局和断点模式准确率,超过了官方基线模型的29.1%和24.1%,在CVPR LOVEU 2024长期视频问答挑战中获得了第三名。