小红花·文摘

该研究提出了一种新的视频场景理解任务，称为场景摘要。通过聚类和视觉地点识别，将长视频摘要为一小组空间多样的帧。该方法在监视、房地产和机器人等领域有重要应用，性能超过了普通视频摘要基线的50%。