本文介绍了一种名为ViLTA的新方法,通过交叉蒸馏生成软标签,提高模型稳健性,并利用上下文合成硬负样本来增加图像-文本匹配的难度。实验证明ViLTA在视觉语言任务上表现出更好的性能。
完成下面两步后,将自动完成登录并继续当前操作。