小红花·文摘

本研究成功地将预先训练的Vision Transformers（ViT）应用于目视检测，并证明了与CNN的互补性。预先训练模型的一小部分在资源有限的环境中也能达到良好准确性。通过添加传统手工制作的特征，算法效率进一步提高。