本文介绍了Visual Caption Restoration(VCR)任务,要求模型恢复被遮挡的文本。作者生成了合成图像并构建了VCR-Wiki数据集。结果显示,当前的视觉语言模型在VCR任务中落后于人类表现,微调并没有显著改进。作者提供了VCR-Wiki数据集和数据构建代码以促进未来研究。
完成下面两步后,将自动完成登录并继续当前操作。