小红花·文摘

ALADIN是一种高效的图文匹配方法，通过图像文本层次对齐产生得分，并通过蒸馏得到的相关性得分学习共享的嵌入空间。该方法速度快，可与最先进的VL Transformer网络相竞争，具有横跨视觉和语言的领先地位。