小红花·文摘

本文介绍了一种名为ViLTA的新方法，通过交叉蒸馏生成软标签，利用上下文合成硬负样本，提高图像-文本匹配的难度，取得更好的性能。实验证明了ViLTA在视觉语言预训练中的有效性和潜力。