基于 Vision Transformers 的快速且可解释的非分布数据人脸识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种使用Vision Transformers(ViTs)在patch级别比较两个图像的方法,经过对CASIA Webface数据集上的2M对图像进行训练,该方法在大样本外分布数据上的准确度相当于DeepFace-EMD,但推理速度是DeepFace-EMD的两倍以上。此外,该模型在可视化交叉注意力方面显示出有希望的解释性。
🎯
关键要点
- 提出了一种使用Vision Transformers (ViTs) 在patch级别比较两个图像的方法。
- 该方法在CASIA Webface数据集上对2M对图像进行训练。
- 在大样本外分布数据上的准确度与DeepFace-EMD相当。
- 推理速度是DeepFace-EMD的两倍以上。
- 模型在可视化交叉注意力方面显示出有希望的解释性。
- 该工作可能激发更多在人脸识别中使用ViTs的探索。
➡️