本文介绍了E2E-VLP,一种端到端的视觉-语言预训练模型,通过Transformer框架学习视觉表示和图像文本语义对齐。该模型整合了目标检测和图像字幕生成任务,提升了视觉学习效果,并在多个视觉-语言相关任务中表现出了有效性。
完成下面两步后,将自动完成登录并继续当前操作。