小红花·文摘

谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样

量子位 ·

Gemini Robotics-ER 1.6是最新的机器人推理模型，提升了空间推理和多视角理解能力，使机器人能更精准地理解环境，执行复杂任务，如读取仪器数据，并在动态环境中进行推理。该模型增强了安全性，更好地遵循物理安全约束。开发者可通过Gemini API和Google AI Studio使用此模型。

Gemini Robotics-ER 1.6：通过增强的具身推理驱动现实世界的机器人任务

Google DeepMind Blog ·

原力灵机推出了具身原生模型DM0，参数仅2.4B，能够实时处理复杂任务。创始人周而进强调从零训练的重要性，模型通过多源数据和空间推理实现闭环智能，旨在提升机器人在物理世界中的操作能力。

对话原力灵机周而进：模型2.4B就够用，关键是“具身原生”；能闭环才是最高效方法

量子位 ·

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异，超越Gemini 3和GPT-5.1等国际顶尖模型，但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破，已开源不同版本并上线千问APP供用户体验。

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

量子位 ·

谷歌推出了Gemini 3 Pro，这是其最智能的AI模型，性能超越之前版本，特别是在编码和多模态理解方面。开发者可通过Google AI Studio和Vertex AI访问该模型，支持自然语言编程，简化应用开发。Gemini 3 Pro还具备出色的视觉推理和空间推理能力，适用于多种应用场景。

开始使用Gemini 3进行构建

Google DeepMind Blog ·

DeepMind发布Gemini Robotics-ER 1.5，用于具身推理

InfoQ ·

利用多模态大语言模型推进自我中心视频问答

Apple Machine Learning Research ·

上海AI实验室推出VeBrain通用智能大脑，集成视觉感知、空间推理和机器人控制，实现机器人像人类一样的“看到-思考-行动”。该模型通过关键点检测和技能识别，提升多模态理解与控制能力，测试结果显示其在多个任务中表现优异。

上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

量子位 ·

浙江大学等团队提出了ViewSpatial-Bench基准，用于评估视觉语言模型的空间推理能力。该基准包含5700个问答对，涵盖多视角任务，显示当前模型在空间理解方面的不足。研究开发的MVSM模型在性能上显著提升，推动AI系统向类人空间认知能力发展。

5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大&成电&港中文

量子位 ·

本研究提出Robo2VLM框架，旨在提升视觉语言模型在真实情境下的应用能力。通过多模态机器人轨迹数据生成视觉问答查询，Robo2VLM-1有效增强了模型在空间和交互推理方面的能力。

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，解决机器人在与人类互动时缺乏视觉视角转换能力的问题，并引入合成数据集以支持空间推理任务的监督学习。

Embodied Cognition of Robots through Spatially-Based Synthetic Worlds

BriefGPT - AI 论文速递 ·

本研究提出了一种基于模糊语义的首阶逻辑方法，用于医学图像中神经的描述和识别。通过结合解剖学知识与模糊语义，开发了一种空间推理算法，帮助外科医生有效提取和识别神经，以制定手术计划。

First Order Logic with Fuzzy Semantics for Describing and Recognizing Nerves in Medical Images

BriefGPT - AI 论文速递 ·

本研究提出了一个专注于空间推理的合成问答数据集，以解决视觉语言模型在空间推理方面的不足。经过训练的SpaRE模型在基准测试中性能提升达49%。

SpaRE：通过合成数据提升视觉语言模型的空间推理能力

BriefGPT - AI 论文速递 ·

上海AI实验室推出LEGO-Puzzles基准，评估多模态大模型的多步空间推理能力。研究表明，闭源模型如GPT-4o优于开源模型，但仍远不及人类。复杂空间任务中，模型的推理能力显著下降，尤其在多步推理方面。

GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

量子位 ·

该研究提出了Embodied-R框架，旨在解决预训练模型在高层次空间推理中的不足。通过结合大规模视觉-语言模型与小规模语言模型，并利用强化学习的新奖励系统，Embodied-R在有限计算资源下实现了深度思考能力。经过5000个具身视频样本训练后，该框架在空间推理任务中表现出与先进多模态模型相当的能力。

Embodied-R: A Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了新任务TRIG及指令数据集，旨在解决多模态大语言模型在文本丰富图像中的视觉文本定位问题，显著提升其空间推理和定位能力。

谷歌最强具身大脑发布！波士顿机器狗瞬间人模人样

Gemini Robotics-ER 1.6：通过增强的具身推理驱动现实世界的机器人任务

对话原力灵机周而进：模型2.4B就够用，关键是“具身原生”；能闭环才是最高效方法

超越Gemini3、GPT5.1，阿里千问登顶空间推理全球冠军

开始使用Gemini 3进行构建

DeepMind发布Gemini Robotics-ER 1.5，用于具身推理

利用多模态大语言模型推进自我中心视频问答

上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大&成电&港中文

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

Embodied Cognition of Robots through Spatially-Based Synthetic Worlds

First Order Logic with Fuzzy Semantics for Describing and Recognizing Nerves in Medical Images

SpaRE：通过合成数据提升视觉语言模型的空间推理能力

GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

Embodied-R: A Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning

面向多模态大语言模型的视觉文本定位

LEGO Puzzles: How Do Multimodal Large Language Models Perform in Multi-Step Spatial Reasoning?

OmniGeo: A Multimodal Large Language Model for Geospatial Artificial Intelligence

以视觉为中心的遥感基准

用LLM做半导体设计，IBM&MIT提出受神经启发的LLM推理网络SOLOMON