Ai2 推出 Molmo 2 开源视频语言模型

Ai2 推出 Molmo 2 开源视频语言模型

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

Ai2发布了开源视频语言模型Molmo 2,支持多图像和视频输入,允许用户进行端到端研究,强调开源的重要性,适合企业使用,关注数据透明性和责任。

🎯

关键要点

  • Ai2发布了开源视频语言模型Molmo 2,支持多图像和视频输入。
  • Molmo 2包括基于阿里巴巴Qwen3和Ai2 Olmo语言模型的多个版本。
  • 发布了九个新的数据集,包括长格式质量保证数据集和开放的视频指向和跟踪数据集。
  • Molmo 2-O-7B是一个透明模型,用户可以进行端到端的研究和自定义。
  • 模型能够理解多张图像,支持所有图像和任何长度的视频。
  • 用户可以向模型询问图像或视频的问题,模型能进行推理和生成描述性字幕。
  • Molmo 2已在Hugging Face和Ai2 Playground上线,提供测试工具和模型的平台。
  • Ai2对开源的承诺强调了数据透明性和责任的重要性。
  • 企业逐渐意识到模型的大小并不重要,关键在于训练模型所用的数据的透明性。
  • Molmo 2模型提供了更大的微调灵活性,但也面临资金和采用的挑战。
➡️

继续阅读