本研究提出了CMAL框架,通过锚点检测和跨模态学习增强视觉与文本的互动。新的自监督任务使CMAL在多个视觉语言任务中表现出色,尤其在SNLI-VE和REC数据集上取得了最佳成绩。
本文介绍了利用空中高光谱图像进行城市地表覆盖绘制的方法,讨论了标记数据稀缺问题和解决方案,发布了Toulouse Hyperspectral数据集,提出了自监督任务和基于自编码器和随机森林分类器的像素级分类基线,并取得了82%的总体准确性和74%的F1得分。
Kaleido-BERT是一种新型的视觉-语言预训练模型,通过对齐引导的遮盖策略和五项自监督任务进行VL预训练,实现了更好的图像-文本语义关系表示。在时装图像标注任务上展示了广泛潜力。
完成下面两步后,将自动完成登录并继续当前操作。