视觉字幕恢复

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了Visual Caption Restoration(VCR)任务,要求模型恢复被遮挡的文本。作者生成了合成图像并构建了VCR-Wiki数据集。结果显示,当前的视觉语言模型在VCR任务中落后于人类表现,微调并没有显著改进。作者提供了VCR-Wiki数据集和数据构建代码以促进未来研究。

🎯

关键要点

  • 介绍了一种名为Visual Caption Restoration(VCR)的新视觉-语言任务。
  • VCR任务要求模型使用图像中的像素级提示恢复被遮挡的文本。
  • 开发了合成图像生成流程,并构建了VCR-Wiki数据集。
  • VCR-Wiki数据集包含来自维基百科的211万英文实体和34.6万中文实体。
  • 当前视觉语言模型在VCR任务中的表现明显落后于人类。
  • 对数据集进行微调并未显著改善模型表现。
  • 提供了VCR-Wiki数据集和数据构建代码以促进未来研究。
➡️

继续阅读