Molmo和PixMo:面向最先进的多模态模型的开放权重与开放数据
原文中文,约500字,阅读约需2分钟。发表于: 。本文解决了当前先进多模态模型普遍采用专有技术的问题,缺乏从零开始构建高性能视觉语言模型(VLM)的基础知识。研究的创新在于通过人类注释者以语音描述收集的详尽图像描述数据集,并且推出了新颖的多样数据集混合以供微调。结果表明,Molmo家族中最佳的72B模型在开放权重和数据模型方面表现优越,能够与专有系统如GPT-4o等进行有效比较,展示了其广泛的应用潜力和影响力。
自ChatGPT发布以来,大规模语言模型在多模态领域取得进展,但在不同语言和文化背景下表现差异明显。为此,研究引入M5基准测试,评估多语言和多文化环境中的视觉语言任务。M5涵盖41种语言,专注少数语言和文化多样性。研究发现,高资源语言与低资源语言间存在性能差异,且更大模型不一定优于小模型。