PartFormer:唤醒来自视觉变换器的潜在多样表示用于对象重识别
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
这篇文章介绍了一种计算机视觉方法,可以检测物体部分并进行推理。通过使用自监督 DINOv2 ViT 的预训练 Transformer 视觉模型,可以放宽对发现的几何属性的限制。在测试中,该方法在细粒度分类任务上获得了显著的改进。
🎯
关键要点
- 文章介绍了一种计算机视觉方法,用于检测物体部分并进行推理。
- 现有方法对几何属性提出了限制性假设,认为部分应该是小而紧凑的。
- 基于自监督 DINOv2 ViT 的预训练 Transformer 视觉模型可以放宽这些限制。
- 允许有任意大小的多个连通成分的总变差先验在效果上优于先前工作。
- 在三个细粒度分类基准数据集上测试了该方法,获得显著改进。
- 与先前发布的方法和基于 Transformer 的最先进方法 PDiscoNet 进行了比较。
- 在部分发现指标和下游分类任务上持续获得显著改进,表明需要重新思考无监督部分发现的几何先验。
➡️