该文章介绍了一种名为场景摘要的新的基于视频的任务,旨在将长视频场景漫游摘要为一小组空间多样的帧。作者提出了自监督流程SceneSum,包含两个阶段。实验证明,该方法性能超过了普通视频摘要基线的50%。
该文章介绍了一项名为SceneSum的新的基于视频的场景摘要任务,旨在将长视频场景漫游摘要为一小组空间多样的帧。作者提出了一个由两个阶段组成的自监督流程,实验证明该方法性能超过了普通视频摘要基线的50%。
该研究提出了一种新的视频场景理解任务,称为场景摘要。通过聚类和视觉地点识别,将长视频摘要为一小组空间多样的帧。该方法在监视、房地产和机器人等领域有重要应用,性能超过了普通视频摘要基线的50%。
完成下面两步后,将自动完成登录并继续当前操作。