小红花·文摘

本研究通过比较视觉变换器（ViT）与传统卷积神经网络（CNN）架构，解决了侧扫声纳图像中人造物体分类的挑战。结果显示ViT模型在多个分类性能指标上表现更佳，为未来在水下环境中应用ViT提供了新的思路。