Ai2发布了开源视频语言模型Molmo 2,支持多图像和视频输入,允许用户进行端到端研究,强调开源的重要性,适合企业使用,关注数据透明性和责任。
Ai2发布了多模态AI模型Molmo,类似贾维斯,能识别图像细节并执行复杂任务,如自动下单。尽管汉语输出有限,但在多项测试中表现优异,超越许多顶尖模型。Molmo体积小,可本地运行且完全开源,成功关键在于高质量数据,使用PixMo数据集训练。通过指向功能实现自然的人机交互,展示了开源模型的潜力。
自ChatGPT发布以来,大规模语言模型在多模态领域取得进展,但在不同语言和文化背景下表现差异明显。为此,研究引入M5基准测试,评估多语言和多文化环境中的视觉语言任务。M5涵盖41种语言,专注少数语言和文化多样性。研究发现,高资源语言与低资源语言间存在性能差异,且更大模型不一定优于小模型。
完成下面两步后,将自动完成登录并继续当前操作。