我的大数据中有什么?
原文中文,约200字,阅读约需1分钟。发表于: 。对大规模文本语料库进行的数据分析揭示了大规模文本语料库的内容,并揭示了重复、合成、低质量内容,个人可识别信息,毒性语言和基准数据污染等问题,同时提供了 What's In My Big Data? (WIMBD) 平台和一组分析工具,用于对大规模文本语料库进行比较和评估。
Wikipedia-based Image Text(WIT)数据集包含37.6百万个实体丰富的图像文本示例,可用于多模态模型的预训练和图像文本检索等下游任务。WIT数据集有四个主要优势:规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化,并提供一个非常具有挑战性的真实世界的测试集。