图像识别是计算机视觉的基础任务,广泛应用于人脸和商品识别。PP-ShiTuV2是一个通用图像识别系统,包含主体检测、特征学习和向量检索模块,显著提升了细粒度识别效果,特别适合快速更新的零售商品识别。
本文介绍了多种新模型和框架以提高广义类别发现(GCD)的性能,包括解耦原型网络、动态概念对比学习、MetaGCD和自平衡协助对比框架。这些方法通过有效的知识转移、对比学习和动态更新教师注意力等技术,显著提升了多个数据集上的分类准确性,尤其在细粒度识别方面表现优异。
本文介绍了一种生成反事实视觉解释的方法,旨在提高图像分类的可解释性和区分性。该方法在鸟类分类任务中表现出色,能够生成高质量的反事实解释,增强模型的透明度和理解。通过多项实验验证了其在细粒度图像识别和复杂场景中的实用性,推动了反事实解释领域的发展。
本研究提出了多种新方法和数据集,以提升文化遗产领域的图像检索技术,包括细粒度艺术品属性识别、Zero-Shot CIR任务及其数据集CIRCO,以及使用合成标签的混合检索方法HyCIR。这些方法通过计算机视觉和多标签标注,显著提高了图像检索的准确性和效果。
本文提出了一种动态概念对比学习(DCCL)框架,以提高聚类准确性。实验结果表明,DCCL在视觉识别数据集上表现优异,尤其在细粒度识别方面。此外,研究探讨了广义类别发现方法,结合半监督学习和图像识别技术,在多个数据集上展现了显著优势。
完成下面两步后,将自动完成登录并继续当前操作。