UniST: 达到统一化的显著性转换器用于视频显著性预测与检测
原文中文,约300字,阅读约需1分钟。发表于: 。我们介绍了统一显著性转换(UniST)框架,通过综合利用视频显著性预测和视频显著物体检测的关键特性,提取帧序列的表示并设计一个考虑显著性的变换器,在逐渐增加的分辨率上学习时空表示,同时结合跨尺度显著性信息生成鲁棒的表示。根据可信的实验证明,所提出的 UniST 在两个任务的七个具有挑战性的基准测试中表现优越,并且明显优于其他最先进的方法。
该研究提出了一种名为SUSiNet的多任务时空网络,可以同时解决显著性估计、动作识别和视频摘要的问题。该网络使用联合端到端训练的单个网络,使用多个与探索任务相关的数据集,并使用统一的体系结构和注意力模块进行深度监督。研究结果表明,该多任务网络的性能与单个任务方法一样好,且所需的计算预算比每个任务单独使用的网络要少。