💡
原文中文,约2100字,阅读约需5分钟。
📝
内容提要
华盛顿大学、Salesforce Research和斯坦福大学等机构联合构建了规模空前的开源多模态数据集MINT-1T,包含一万亿文本token和三十亿张图像。该数据集经历了多个步骤,包括数据收集、过滤和去重。实验结果显示,在MINT-1T数据集上训练的模型在多个基准任务上表现优于之前的数据集。这个超大规模的开源多模态数据集有望成为多模态大模型的起点。
🎯
关键要点
- 华盛顿大学、Salesforce Research 和斯坦福大学联合构建了开源多模态数据集 MINT-1T,包含一万亿文本 token 和三十亿张图像。
- MINT-1T 是目前最大的开源多模态数据集,填补了现有数据集规模和多样性不足的空白。
- 数据集来源多样,包括 HTML、PDF 和 ArXiv,经过严格的数据过滤和去重处理。
- MINT-1T 数据集的构建耗费了约 420 万 CPU 小时,包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。
- 使用 MINT-1T 训练的模型在多个基准任务上表现优于之前的数据集 OBELICS,尤其在视觉问答任务上。
- MINT-1T 的混合数据集在大多数基准上优于仅使用 HTML 的模型,显示出其多模态推理能力的提升。
- 该数据集有望成为多模态大模型发展的起点,推动类似 Llama 系列模型的出现。
➡️