基于预训练 CNN 和 ViT 特征的结合:另一个令人惊叹的识别基准线
原文中文,约500字,阅读约需1分钟。发表于: 。我们应用预先训练的架构, 原本用于 ImageNet 大规模视觉识别挑战,进行目视检测。这些架构在不同计算机视觉任务中取得了显著的成功。本研究在我们之前的使用现成卷积神经网络(CNN)的研究基础上,还引入了最近提出的 Vision Transformers(ViT)。尽管它们是用于泛化物体分类的训练,但从 CNN 和 ViT 的中间层特征可以适合用于基于目视图像的个体识别。我们还证明了...
本研究成功地将预先训练的Vision Transformers(ViT)应用于目视检测,并证明了与CNN的互补性。预先训练模型的一小部分在资源有限的环境中也能达到良好准确性。通过添加传统手工制作的特征,算法效率进一步提高。