Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解 多模态大型语言模型 (MLLM) 作为能够处理各种视觉任务的多功能 AI 助手,已取得显著进展。然而,它们作为孤立的数字实体部署限制了其潜在的影响力。将 MLLM 集成到机器人和自... 研究者提出MultiSPA数据集和Multi-SpatialMLLM模型,以解决多模态大型语言模型在空间理解方面的局限,显著提升了多帧空间推理能力,准确率达到80-90%。该模型在多任务学习中表现优异,填补了研究空白,具有广泛的应用潜力。 Multi-SpatialMLLM MultiSPA 多任务学习 多模态 大型语言模型 空间理解