小红花·文摘

本文提出了一种使用Vision Transformers（ViTs）在patch级别比较两个图像的方法，经过对CASIA Webface数据集上的2M对图像进行训练，该方法在大样本外分布数据上的准确度相当于DeepFace-EMD，但推理速度是DeepFace-EMD的两倍以上。此外，该模型在可视化交叉注意力方面显示出有希望的解释性。