小红花·文摘

本文介绍了E2E-VLP，一种端到端的视觉-语言预训练模型，通过Transformer框架学习视觉表示和图像文本语义对齐。该模型整合了目标检测和图像字幕生成任务，提升了视觉学习效果，并在多个视觉-语言相关任务中表现出了有效性。