InfoQ ·

Mistral AI发布Pixtral Large：一个用于高级图像和文本分析的多模态模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Mistral AI发布了Pixtral Large，一个1240亿参数的多模态模型，专注于图像和文本处理，表现优异。该模型在MathVista和DocVQA基准测试中超越了GPT-4o和Gemini-1.5 Pro，展现出强大的视觉推理能力，适用于文档解析和图表分析。

🎯

🔎

Pixtral Large作为一个多模态模型，结合了文本和图像处理的能力，特别适合需要同时分析这两种数据的应用场景。其在MathVista和DocVQA等基准测试中的优异表现，表明该模型在复杂文档解析和视觉推理方面的潜力，能够为教育、科研等领域提供强有力的支持。

Mistral AI选择将Pixtral Large开源，这一举措将促进AI领域的创新与合作。研究人员和初创公司可以根据自身需求对模型进行微调，开发出新的应用。这种开放性不仅有助于技术的快速迭代，也可能推动整个行业的发展。

尽管Pixtral Large在多模态任务中表现出色，但目前尚不支持光学字符识别（OCR）。Mistral AI已表示未来将增强这一能力，这将进一步拓宽模型的应用范围，尤其是在需要文本提取和处理的场景中。关注这一进展将有助于把握技术的最新动态。

❓

Pixtral Large模型专注于高级图像和文本处理，支持文档解析、图表分析和自然图像理解。

Pixtral Large在MathVista和DocVQA基准测试中表现优异，超越了GPT-4o和Gemini-1.5 Pro。

Pixtral Large拥有1240亿个参数。

Pixtral Large不支持光学字符识别（OCR），但未来计划增强这一能力。

Pixtral Large可通过Mistral Research License (MRL)获取，学术和非商业用途免费，企业需单独申请商业许可。

开源Pixtral Large将促进创新与合作，帮助研究人员和初创公司根据需求进行模型微调。

🏷️