本论文提出了一个综合的视频摘要的多粒度解释框架,通过整合在片段级别和更细粒度的视觉对象级别产生解释的方法。该框架能够发现视频摘要中最具影响力的片段和视觉对象,并提供了关于摘要过程输出的全面的基于视觉的解释。
完成下面两步后,将自动完成登录并继续当前操作。