视觉引导的生成式文档布局预训练

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为ViLTA的新方法,通过交叉蒸馏生成软标签,利用上下文合成硬负样本,提高图像-文本匹配的难度,取得更好的性能。实验证明了ViLTA在视觉语言预训练中的有效性和潜力。

🎯

关键要点

  • 提出了一种名为ViLTA的新方法
  • ViLTA由两个组件组成,旨在促进图像和文本对之间的细粒度表示学习
  • 采用交叉蒸馏方法生成软标签,提高模型的稳健性
  • 利用上下文合成硬负样本,增加图像-文本匹配的难度
  • 在各种视觉语言任务上取得更好的性能
  • 大量基准数据集实验证明了ViLTA的有效性和潜力
➡️

继续阅读