小红花·文摘

本文介绍了Visual Caption Restoration（VCR）任务，要求模型恢复被遮挡的文本。作者生成了合成图像并构建了VCR-Wiki数据集。结果显示，当前的视觉语言模型在VCR任务中落后于人类表现，微调并没有显著改进。作者提供了VCR-Wiki数据集和数据构建代码以促进未来研究。