Ai2发布了开源视频语言模型Molmo 2,支持多图像和视频输入,允许用户进行端到端研究,强调开源的重要性,适合企业使用,关注数据透明性和责任。
Coinbase、MSCI和Zscaler等公司的工程团队利用Resolve AI的AI SRE工具,使平均修复时间(MTTR)提高了5倍,开发效率提升了75%。Molmo是一种新型视觉语言模型,基于PixMo数据集,解决了现有模型的依赖问题,增强了视觉理解和推理能力。
Ai2发布了多模态AI模型Molmo,类似贾维斯,能识别图像细节并执行复杂任务,如自动下单。尽管汉语输出有限,但在多项测试中表现优异,超越许多顶尖模型。Molmo体积小,可本地运行且完全开源,成功关键在于高质量数据,使用PixMo数据集训练。通过指向功能实现自然的人机交互,展示了开源模型的潜力。
PointLLM是一个旨在提升3D理解能力的大型语言模型,通过处理点云数据进行训练,表现优于现有2D模型。SEED-Bench-2和MileBench基准测试揭示了多模态模型在长上下文和多图像任务中的局限性。Xmodel-VLM模型在消费级GPU上实现高效部署,性能与大型模型相当。此外,M5基准评估多语言环境中的视觉语言任务,显示高低资源语言间的性能差异。
完成下面两步后,将自动完成登录并继续当前操作。