本文介绍了一种名为ViLTA的新方法,通过交叉蒸馏生成软标签,利用上下文合成硬负样本,提高图像-文本匹配的难度,取得更好的性能。实验证明了ViLTA在视觉语言预训练中的有效性和潜力。
完成下面两步后,将自动完成登录并继续当前操作。