视频总结的多粒度解释集成框架
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本论文提出了一个综合的视频摘要的多粒度解释框架,通过整合在片段级别和更细粒度的视觉对象级别产生解释的方法。该框架能够发现视频摘要中最具影响力的片段和视觉对象,并提供了关于摘要过程输出的全面的基于视觉的解释。
🎯
关键要点
- 本论文提出了一个综合的视频摘要的多粒度解释框架。
- 该框架整合了片段级别和视觉对象级别的解释方法。
- 使用模型无关的基于扰动的方法进行片段级解释。
- 引入新方法将视频全景分割结果与基于扰动的解释方法相结合,产生对象级解释。
- 对框架进行了性能评估,使用最先进的摘要方法和两个基准测试视频摘要的数据集。
- 定量和定性评估结果表明框架能够发现视频摘要中最具影响力的片段和视觉对象。
- 框架提供了关于摘要过程输出的全面的基于视觉的解释。
➡️