小红花·文摘

本论文提出了一个综合的视频摘要的多粒度解释框架，通过整合在片段级别和更细粒度的视觉对象级别产生解释的方法。该框架能够发现视频摘要中最具影响力的片段和视觉对象，并提供了关于摘要过程输出的全面的基于视觉的解释。