机器之心 ·

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

💡 原文中文，约5500字，阅读约需13分钟。

📝

内容提要

Ai2发布了多模态AI模型Molmo，类似贾维斯，能识别图像细节并执行复杂任务，如自动下单。尽管汉语输出有限，但在多项测试中表现优异，超越许多顶尖模型。Molmo体积小，可本地运行且完全开源，成功关键在于高质量数据，使用PixMo数据集训练。通过指向功能实现自然的人机交互，展示了开源模型的潜力。

🎯

🔎

Molmo作为一款完全开源的多模态模型，打破了传统大型模型的闭源壁垒。用户可以自由访问其代码和数据，促进了社区的创新与合作。这种开放性不仅降低了使用门槛，也为研究人员提供了宝贵的实验基础，推动了多模态AI的发展。

Molmo的成功在于其高质量的数据集PixMo，强调了数据质量优于数量的理念。通过精心挑选和标注的数据，Molmo在性能上超越了许多依赖海量数据的模型。这一策略为其他研究者提供了新的思路，尤其是在资源有限的情况下，如何有效利用数据。

Molmo引入的二维指向功能，提升了人机交互的自然性和直观性。用户不仅可以通过语言与模型互动，还能通过指向物体来获取信息。这种创新的交互方式为未来的应用场景提供了更多可能性，尤其是在教育和辅助技术领域。

❓

Molmo模型能够识别图像细节并执行复杂任务，如自动下单和图像描述。

Molmo在多项测试中表现优异，超越了Claude 3.5 Sonnet和GPT-4V，甚至可以媲美GPT-4o。

PixMo数据集包含71.2万幅图像的详细音频描述，强调数据质量而非数量。

Molmo完全开源，所有权重、代码和数据都将公开，用户可以本地运行该模型。

Molmo通过引入二维指向数据，能够用非语言的方式进行解答，增强了人机交互能力。

Molmo的模型架构结合了语言模型和图像编码器，采用简单的标准设计。

🏷️