量子位 ·

谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B，包含1000亿图像-文本对，增强了多样性和多语言能力。研究表明，数据规模越大，模型对细节的理解越好，但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华，他将于2024年加入OpenAI。

🎯

关键要点

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B，包含1000亿图像-文本对。
数据集规模较此前纪录扩大10倍，证明数据Scaling Law仍有潜力。
1000亿规模的数据集能更好覆盖多元文化和多语言场景，提升模型性能。
CLIP模型的过滤步骤可能对文化多元性产生负面影响。
研究团队包括ViT核心作者翟晓华，他将于2024年加入OpenAI。
研究验证了VLMs在1000亿规模数据集上的效果，增强了文化多样性和多语言能力。
研究发现数据过滤可以提高传统任务性能，但可能减少某些文化背景的代表性。
通过调整低资源语言的比例，可以显著提高模型在低资源语言基准测试上的性能。
主创Xiao Wang和翟晓华在视觉语言研究领域有重要贡献，翟晓华曾领导多模态研究小组。

❓

延伸问答

WebLI-100B数据集的规模有多大？

WebLI-100B数据集包含1000亿图像-文本对。

数据Scaling Law在这项研究中有什么发现？

研究证明数据Scaling Law仍有潜力，数据规模越大，模型对细节的理解越好。

CLIP模型的过滤步骤对文化多元性有什么影响？

CLIP模型的过滤步骤可能对文化多元性产生负面影响。

如何提高低资源语言的模型性能？

通过调整低资源语言的比例，可以显著提高模型在低资源语言基准测试上的性能。

这项研究的主要贡献者是谁？

主要贡献者包括Xiao Wang和翟晓华，后者将于2024年加入OpenAI。

1000亿规模的数据集对多语言能力有什么影响？

1000亿规模的数据集能增强VLMs的文化多样性和多语言能力。

🏷️

继续阅读

配备谷歌内置的汽车将因Gemini而变得更智能
Gemini是谷歌助手的升级版，已在配备谷歌内置的汽车中推出。用户可以通过自然对话获取信息、规划行程、管理消息和控制车辆功能。Gemini支持实时更新，帮...
Gemini助手正在向内置谷歌助手的汽车推出
谷歌为内置谷歌助手的汽车推出Gemini AI助手，提供更自然的对话体验。此更新适用于2020年及以后的车型，通过软件更新实现。Gemini可以推荐餐厅、...
市场激活差距有解：Databricks与Stitch合作将数据基础设施转化为营销绩效
Databricks与Stitch合作，旨在缩小企业数据与市场营销之间的差距，帮助品牌更好地利用数据平台，实现实时数据驱动的营销决策。这一合作为企业提供了...
在谷歌地图上探索66号公路的新方式
美国66号公路长达2448英里，连接芝加哥和圣塔莫尼卡。为庆祝其100周年，推出两种新方式，帮助人们虚拟或现实中探索这条公路。
LWiAI播客第242期 - ChatGPT图像2.0，Qwen 3.6 Max，Kimi-K2.6
本期播客讨论了最新的AI新闻，包括OpenAI发布的ChatGPT图像2.0模型，生成文本和截图的能力显著提升；阿里巴巴推出Qwen 3.6 Max，转为...
拆解微软、谷歌、亚马逊、Meta最新财报：AI变现进入验证期 | 全球深一度
2026年第一季度，微软、谷歌、亚马逊和Meta四大科技巨头财报显示强劲增长。谷歌营收接近1100亿美元，微软AI业务年化收入达370亿美元。市场关注AI...