小红花·文摘

本文介绍了一种名为ViLTA的新方法，通过交叉蒸馏生成软标签，提高模型稳健性，并利用上下文合成硬负样本来增加图像-文本匹配的难度。实验证明ViLTA在视觉语言任务上表现出更好的性能。