计算机视觉中的活体检测:基于 Transformer 的自监督学习用于人脸反欺骗
原文中文,约400字,阅读约需1分钟。发表于: 。本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架,对面部反欺诈任务进行了 Fine-tuning,与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示,ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型,进一步推动了生物识别安全领域的重要进展。
本文比较了不同自监督视觉变换器(ViTs)的局部代表能力,并设计了评估框架。发现对比学习方法产生更通用的局部表示,而掩蔽图像建模方法学习的嵌入对大多数下游任务没有有用信息。移除高方差特征对k-NN算法有改进。DINOv2在大规模数据上预训练的模型在物体实例检索方面表现较差。