Pixtral 12B
原文中文,约500字,阅读约需2分钟。发表于: 。本文介绍了Pixtral-12B,一种具备120亿参数的多模态语言模型,能够同时理解自然图像和文档,表现优异,超过多种大型模型。Pixtral采用全新的视觉编码器,能以自然分辨率处理图像,并在128K 个标记的上下文窗口中处理任意数量的图像。此外,作者提供了用于评估视觉-语言模型的开源基准MM-MT-Bench,并详细分析了多模态大语言模型的标准化评估协议。
自ChatGPT发布以来,自然语言处理在大规模语言模型和多模态模型上快速发展。但这些模型在不同语言和文化背景下表现差异明显。为此,研究引入M5基准测试,评估多语言和多文化环境中的视觉语言任务。M5涵盖八个数据集、五个任务和41种语言,特别关注少数语言和文化多样性。研究发现,高资源语言和低资源语言之间存在性能差异,且更大模型不一定表现更好。