本文提出了一种使用Vision Transformers(ViTs)在patch级别比较两个图像的方法,经过对CASIA Webface数据集上的2M对图像进行训练,该方法在大样本外分布数据上的准确度相当于DeepFace-EMD,但推理速度是DeepFace-EMD的两倍以上。此外,该模型在可视化交叉注意力方面显示出有希望的解释性。
完成下面两步后,将自动完成登录并继续当前操作。