自监督视觉 Transformer 用于蛇种识别的迁移学习
原文中文,约400字,阅读约需1分钟。发表于: 。我们通过使用 Meta 的 DINOv2 视觉转换模型对 182,261 张图像进行特征提取,并进行嵌入式的探索性分析和线性分类器训练,以预测蛇的物种,尽管取得了 39.69 分的成绩,但结果显示出 DINOv2 嵌入式在蛇辨识方面有潜力。
本文比较了不同自监督视觉变换器(ViTs)的局部代表能力,并设计了评估框架。研究发现,对比学习方法产生了更通用的局部表示,而掩蔽图像建模方法学习的嵌入具有高方差特征。移除高方差特征对k-NN算法有改进作用。DINOv2在大规模数据上预训练的模型在物体实例检索方面表现较差。