基于 Vision Transformers 的快速且可解释的非分布数据人脸识别

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种使用Vision Transformers(ViTs)在patch级别比较两个图像的方法,经过对CASIA Webface数据集上的2M对图像进行训练,该方法在大样本外分布数据上的准确度相当于DeepFace-EMD,但推理速度是DeepFace-EMD的两倍以上。此外,该模型在可视化交叉注意力方面显示出有希望的解释性。

🎯

关键要点

  • 提出了一种使用Vision Transformers (ViTs) 在patch级别比较两个图像的方法。
  • 该方法在CASIA Webface数据集上对2M对图像进行训练。
  • 在大样本外分布数据上的准确度与DeepFace-EMD相当。
  • 推理速度是DeepFace-EMD的两倍以上。
  • 模型在可视化交叉注意力方面显示出有希望的解释性。
  • 该工作可能激发更多在人脸识别中使用ViTs的探索。
➡️

继续阅读