小红花·文摘

谷歌推出了史上最大规模的视觉语言数据集WebLI-100B，包含1000亿图像-文本对，增强了多样性和多语言能力。研究表明，数据规模越大，模型对细节的理解越好，但CLIP模型的过滤可能影响文化多元性。研究团队包括ViT核心作者翟晓华，他将于2024年加入OpenAI。