该文章介绍了一种基于迭代扫描的指代表达理解模型ScanFormer,通过图像金字塔逐层扫描图像,过滤无关区域,实现任务相关区域的关注。实验结果显示,该模型在多个数据集上取得了接近最先进的性能,并具有实时推理速度。文章还对模型的patch选择和定位精度进行了统计和可视化分析。
无监督视频对象分割任务旨在检测视频中最显著的对象。最近的方法使用光流图和RGB图像提取的线索。为了解决运动线索干扰问题,设计了一种新型网络,将运动线索视为可选项。通过随机提供RGB图像而不是光流图进行网络训练,降低了网络的运动依赖性。该方法在公共基准数据集上具有最先进的性能,且实时推理速度快。
该文介绍了一种新型的无监督视频对象分割方法,利用外观和运动线索检测视频中最显著的对象。该方法设计了一种新型运动作为选项网络,并提出了自适应输出选择算法。在所有公共基准数据集上具有最先进的性能,保持实时推理速度。
完成下面两步后,将自动完成登录并继续当前操作。