小红花·文摘

该文章介绍了一项名为SceneSum的新的基于视频的场景摘要任务，旨在将长视频场景漫游摘要为一小组空间多样的帧。作者提出了一个由两个阶段组成的自监督流程，实验证明该方法性能超过了普通视频摘要基线的50%。