机器之心 ·

万亿token！史上最大多模态数据集诞生

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

华盛顿大学、Salesforce Research和斯坦福大学等机构联合构建了规模空前的开源多模态数据集MINT-1T，包含一万亿文本token和三十亿张图像。该数据集经历了多个步骤，包括数据收集、过滤和去重。实验结果显示，在MINT-1T数据集上训练的模型在多个基准任务上表现优于之前的数据集。这个超大规模的开源多模态数据集有望成为多模态大模型的起点。

🎯

关键要点

华盛顿大学、Salesforce Research 和斯坦福大学联合构建了开源多模态数据集 MINT-1T，包含一万亿文本 token 和三十亿张图像。
MINT-1T 是目前最大的开源多模态数据集，填补了现有数据集规模和多样性不足的空白。
数据集来源多样，包括 HTML、PDF 和 ArXiv，经过严格的数据过滤和去重处理。
MINT-1T 数据集的构建耗费了约 420 万 CPU 小时，包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。
使用 MINT-1T 训练的模型在多个基准任务上表现优于之前的数据集 OBELICS，尤其在视觉问答任务上。
MINT-1T 的混合数据集在大多数基准上优于仅使用 HTML 的模型，显示出其多模态推理能力的提升。
该数据集有望成为多模态大模型发展的起点，推动类似 Llama 系列模型的出现。

❓

延伸问答

MINT-1T数据集的规模有多大？

MINT-1T数据集包含一万亿文本token和三十亿张图像。

MINT-1T数据集的来源有哪些？

MINT-1T的数据来源包括HTML、PDF和ArXiv等多种格式。

MINT-1T数据集的构建过程是怎样的？

构建过程包括数据收集、文本和图像过滤、安全过滤以及去重，耗费了约420万CPU小时。

使用MINT-1T训练的模型表现如何？

在多个基准任务上，使用MINT-1T训练的模型表现优于之前的数据集OBELICS，尤其在视觉问答任务上。

MINT-1T数据集的优势是什么？

MINT-1T填补了现有数据集规模和多样性不足的空白，提升了多模态推理能力。

MINT-1T数据集对多模态大模型的发展有什么影响？

MINT-1T有望成为多模态大模型发展的起点，推动类似Llama系列模型的出现。

🏷️

继续阅读

开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
正如我们在 AWS 2026“What’s Next”大会上预告的那样，我们现在正式宣布：OpenAI GPT […]
AdaCodec：一种适用于 AI 生成视频的编解码器
AI 推理的实际成本正为当前 AI 革命的迅猛势头注入一剂清醒剂，人们对优化机器学习成本的关注度也随之提升。除了将 AI 引入企业内部的潜力以及私有 AI...
粉笔科技的人大讲座事件的说明与致歉
6月3日，粉笔网CEO张小龙在人民大学的一场演讲引发热议，据多位现场学生及网络流传录音显示，在中国人民大学的一场职业规划讲座上，张小龙调整了演讲主题，将讨...
性和浪漫爱情可以都是崇高的
文章探讨了性与浪漫爱情的二元对立，指出这种观念导致性压抑和内心冲突，尤其是女性在享受性愉悦时常感到恐惧和焦虑。尽管性与浪漫爱情在生理上并无高低之分，但文化...
预测：菲律宾移动服务收入到2030年将超过50亿美元
据智能和生产力平台GlobalData预测，菲律宾移动服务总收入将以4.6%的复合年增长率（CAGR）从2025年的40亿美元（34亿欧元）增长到2030...
研究：世界杯期间球迷最担心的技术难题
英国球迷正准备迎接夏季足球盛宴，深夜比赛将改变观赛方式。研究显示，80%球迷认为比赛时间影响观看直播，许多人计划调整观赛习惯。82%球迷希望第一时间看到进...