我的大数据中有什么?

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

Wikipedia-based Image Text(WIT)数据集包含37.6百万个实体丰富的图像文本示例,可用于多模态模型的预训练和图像文本检索等下游任务。WIT数据集有四个主要优势:规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化,并提供一个非常具有挑战性的真实世界的测试集。

🎯

关键要点

  • WIT数据集包含37.6百万个实体丰富的图像文本示例。
  • 该数据集可用于多模态模型的预训练和图像文本检索等下游任务。
  • WIT数据集的四个主要优势是:规模大、多语种、概念和实体多样化、提供具有挑战性的真实世界测试集。
➡️

继续阅读