通过潜在压缩学习在交替图像文本数据上进行视觉模型预训练
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
通过无监督预训练实现视觉和语言模型的学习,使用“mask-and-predict”方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁。在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于V&L预训练来说,对齐数据是必要的广泛看法,并显著减少了V&L模型的监督所需量。
🎯
关键要点
- 通过无监督预训练实现视觉和语言模型的学习
- 使用 'mask-and-predict' 方法预训练文本和图像数据
- 引入目标识别模型检测到的对象标签作为两种模式之间的桥梁
- 在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能
- 挑战了对齐数据是 V&L 预训练必要的广泛看法
- 显著减少了 V&L 模型的监督所需量
➡️