小红花·文摘

本研究提出AquaticCLIP，一种新型的对比语言-图像预训练模型，旨在解决水下场景理解中的人工标注不足问题。该模型通过构建200万对水下图像-文本配对数据集，显著提升了水下计算机视觉任务的零样本性能，为水下环境的视觉-语言应用设定了新基准。