本研究通过比较视觉变换器(ViT)与传统卷积神经网络(CNN)架构,解决了侧扫声纳图像中人造物体分类的挑战。结果显示ViT模型在多个分类性能指标上表现更佳,为未来在水下环境中应用ViT提供了新的思路。
完成下面两步后,将自动完成登录并继续当前操作。