ALADIN是一种高效的图文匹配方法,通过图像文本层次对齐产生得分,并通过蒸馏得到的相关性得分学习共享的嵌入空间。该方法速度快,可与最先进的VL Transformer网络相竞争,具有横跨视觉和语言的领先地位。
完成下面两步后,将自动完成登录并继续当前操作。