该文介绍了一种基于Vision-Transformer的语义蒸馏协助显著目标检测方法,通过融合从生成的图像字幕中语义蒸馏的知识,可以更好地揭示物体之间、物体与环境之间的显著性,并提高了模型性能。在五个基准数据集上的实验表明,该方法优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。