小红花·文摘

该文介绍了一种基于Vision-Transformer的语义蒸馏协助显著目标检测方法，通过融合从生成的图像字幕中语义蒸馏的知识，可以更好地揭示物体之间、物体与环境之间的显著性，并提高了模型性能。在五个基准数据集上的实验表明，该方法优于现有技术。