幻觉减轻促进长期视频理解

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用CLIP分数指导带有问题的帧采样过程,并将问题信息注入到图像Q-former的查询中以获取更重要的视觉特征。在MovieChat数据集上取得了84.2%和62.9%的全局和断点模式准确率,超过了官方基线模型的29.1%和24.1%,在CVPR LOVEU 2024长期视频问答挑战中获得了第三名。

🎯

关键要点

  • 提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法。
  • 使用CLIP分数指导带有问题的帧采样过程。
  • 将问题信息注入到图像Q-former的查询中以获取更重要的视觉特征。
  • 在MovieChat数据集上取得了84.2%和62.9%的全局和断点模式准确率。
  • 超过了官方基线模型的29.1%和24.1%。
  • 在CVPR LOVEU 2024长期视频问答挑战中获得了第三名。
➡️

继续阅读