谷歌DeepMind发布了Gemini Robotics-ER 1.6模型,显著提升了机器人空间推理能力。新模型能够自主读取仪表数据,成功率从23%提升至93%。ER 1.6还增强了任务成功检测和安全性,能够更准确地判断任务完成情况。谷歌希望通过这一技术成为机器人领域的“Android”,为各厂商提供智能大脑。
Gemini Robotics-ER 1.6是最新的机器人推理模型,提升了空间推理和多视角理解能力,使机器人能更精准地理解环境,执行复杂任务,如读取仪器数据,并在动态环境中进行推理。该模型增强了安全性,更好地遵循物理安全约束。开发者可通过Gemini API和Google AI Studio使用此模型。
原力灵机推出了具身原生模型DM0,参数仅2.4B,能够实时处理复杂任务。创始人周而进强调从零训练的重要性,模型通过多源数据和空间推理实现闭环智能,旨在提升机器人在物理世界中的操作能力。
阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异,超越Gemini 3和GPT-5.1等国际顶尖模型,但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破,已开源不同版本并上线千问APP供用户体验。
谷歌推出了Gemini 3 Pro,这是其最智能的AI模型,性能超越之前版本,特别是在编码和多模态理解方面。开发者可通过Google AI Studio和Vertex AI访问该模型,支持自然语言编程,简化应用开发。Gemini 3 Pro还具备出色的视觉推理和空间推理能力,适用于多种应用场景。
谷歌DeepMind推出Gemini Robotics-ER 1.5,这是一个支持空间推理和多步骤规划的机器人推理模型。开发者可以通过Google AI Studio和Gemini API预览该模型,并调整思维预算以平衡响应延迟和推理准确性。Gemini Robotics结合了推理模型与视觉-语言-动作模型,提升了机器人的推理能力,并在15个基准测试中表现优异,适用于多种机器人平台。
本文评估了多模态大语言模型在Egocentric视频问答中的表现,使用QaEgo4Dv2数据集。研究发现,经过微调的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA和CloseQA中表现优异,超越了之前的基准。然而,模型在空间推理和细粒度物体识别方面仍存在困难。
上海AI实验室推出VeBrain通用智能大脑,集成视觉感知、空间推理和机器人控制,实现机器人像人类一样的“看到-思考-行动”。该模型通过关键点检测和技能识别,提升多模态理解与控制能力,测试结果显示其在多个任务中表现优异。
浙江大学等团队提出了ViewSpatial-Bench基准,用于评估视觉语言模型的空间推理能力。该基准包含5700个问答对,涵盖多视角任务,显示当前模型在空间理解方面的不足。研究开发的MVSM模型在性能上显著提升,推动AI系统向类人空间认知能力发展。
本研究提出Robo2VLM框架,旨在提升视觉语言模型在真实情境下的应用能力。通过多模态机器人轨迹数据生成视觉问答查询,Robo2VLM-1有效增强了模型在空间和交互推理方面的能力。
本研究提出了一种新框架,解决机器人在与人类互动时缺乏视觉视角转换能力的问题,并引入合成数据集以支持空间推理任务的监督学习。
本研究提出了一种基于模糊语义的首阶逻辑方法,用于医学图像中神经的描述和识别。通过结合解剖学知识与模糊语义,开发了一种空间推理算法,帮助外科医生有效提取和识别神经,以制定手术计划。
本研究提出了一个专注于空间推理的合成问答数据集,以解决视觉语言模型在空间推理方面的不足。经过训练的SpaRE模型在基准测试中性能提升达49%。
上海AI实验室推出LEGO-Puzzles基准,评估多模态大模型的多步空间推理能力。研究表明,闭源模型如GPT-4o优于开源模型,但仍远不及人类。复杂空间任务中,模型的推理能力显著下降,尤其在多步推理方面。
该研究提出了Embodied-R框架,旨在解决预训练模型在高层次空间推理中的不足。通过结合大规模视觉-语言模型与小规模语言模型,并利用强化学习的新奖励系统,Embodied-R在有限计算资源下实现了深度思考能力。经过5000个具身视频样本训练后,该框架在空间推理任务中表现出与先进多模态模型相当的能力。
本研究提出了新任务TRIG及指令数据集,旨在解决多模态大语言模型在文本丰富图像中的视觉文本定位问题,显著提升其空间推理和定位能力。
本研究提出了LEGO-Puzzles基准,用于评估多模态大语言模型(MLLMs)在多步空间推理中的表现。结果显示,最强的MLLMs正确率约为50%,而人类参与者的正确率超过90%。
本研究提出了OmniGeo,一种针对地理空间人工智能的多模态大语言模型。该模型专为处理卫星影像、地理空间元数据和文本描述等多种数据源而设计,研究表明其在多个地理空间任务中表现优于现有模型,具备更强的指令遵循能力和空间推理准确性。
本研究提出遥感多模态视觉模式(RSMMVP)基准,评估多模态大型语言模型(MLLMs)在遥感图像中的表现,揭示其在视觉定位和空间推理方面的局限性,以推动未来发展。
研究人员提出了一种名为SOLOMON的神经启发大型语言模型(LLM)推理网络,旨在提高半导体布局设计的适应性。SOLOMON采用多智能体推理系统,动态处理空间约束,集成思维评估机制,通过提示工程优化输出,减少错误并提高布局精度。实验表明,SOLOMON在空间推理能力上优于传统方法,为特定领域问题提供了高效解决方案。
完成下面两步后,将自动完成登录并继续当前操作。