视觉字幕恢复
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了Visual Caption Restoration(VCR)任务,要求模型恢复被遮挡的文本。作者生成了合成图像并构建了VCR-Wiki数据集。结果显示,当前的视觉语言模型在VCR任务中落后于人类表现,微调并没有显著改进。作者提供了VCR-Wiki数据集和数据构建代码以促进未来研究。
🎯
关键要点
- 介绍了一种名为Visual Caption Restoration(VCR)的新视觉-语言任务。
- VCR任务要求模型使用图像中的像素级提示恢复被遮挡的文本。
- 开发了合成图像生成流程,并构建了VCR-Wiki数据集。
- VCR-Wiki数据集包含来自维基百科的211万英文实体和34.6万中文实体。
- 当前视觉语言模型在VCR任务中的表现明显落后于人类。
- 对数据集进行微调并未显著改善模型表现。
- 提供了VCR-Wiki数据集和数据构建代码以促进未来研究。
➡️