小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样

谷歌DeepMind发布了Gemini Robotics-ER 1.6模型,显著提升了机器人空间推理能力。新模型能够自主读取仪表数据,成功率从23%提升至93%。ER 1.6还增强了任务成功检测和安全性,能够更准确地判断任务完成情况。谷歌希望通过这一技术成为机器人领域的“Android”,为各厂商提供智能大脑。

谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样

量子位
量子位 · 2026-04-17T07:08:17Z

Gemini Robotics-ER 1.6是最新的机器人推理模型,提升了空间推理和多视角理解能力,使机器人能更精准地理解环境,执行复杂任务,如读取仪器数据,并在动态环境中进行推理。该模型增强了安全性,更好地遵循物理安全约束。开发者可通过Gemini API和Google AI Studio使用此模型。

Gemini Robotics-ER 1.6:通过增强的具身推理驱动现实世界的机器人任务

Google DeepMind Blog
Google DeepMind Blog · 2026-04-13T15:52:13Z

原力灵机推出了具身原生模型DM0,参数仅2.4B,能够实时处理复杂任务。创始人周而进强调从零训练的重要性,模型通过多源数据和空间推理实现闭环智能,旨在提升机器人在物理世界中的操作能力。

对话原力灵机周而进:模型2.4B就够用,关键是“具身原生”;能闭环才是最高效方法

量子位
量子位 · 2026-02-13T05:51:47Z

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异,超越Gemini 3和GPT-5.1等国际顶尖模型,但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破,已开源不同版本并上线千问APP供用户体验。

超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

量子位
量子位 · 2025-11-26T07:27:11Z

谷歌推出了Gemini 3 Pro,这是其最智能的AI模型,性能超越之前版本,特别是在编码和多模态理解方面。开发者可通过Google AI Studio和Vertex AI访问该模型,支持自然语言编程,简化应用开发。Gemini 3 Pro还具备出色的视觉推理和空间推理能力,适用于多种应用场景。

开始使用Gemini 3进行构建

Google DeepMind Blog
Google DeepMind Blog · 2025-11-18T17:49:13Z
DeepMind发布Gemini Robotics-ER 1.5,用于具身推理

谷歌DeepMind推出Gemini Robotics-ER 1.5,这是一个支持空间推理和多步骤规划的机器人推理模型。开发者可以通过Google AI Studio和Gemini API预览该模型,并调整思维预算以平衡响应延迟和推理准确性。Gemini Robotics结合了推理模型与视觉-语言-动作模型,提升了机器人的推理能力,并在15个基准测试中表现优异,适用于多种机器人平台。

DeepMind发布Gemini Robotics-ER 1.5,用于具身推理

InfoQ
InfoQ · 2025-09-30T10:44:00Z
利用多模态大语言模型推进自我中心视频问答

本文评估了多模态大语言模型在Egocentric视频问答中的表现,使用QaEgo4Dv2数据集。研究发现,经过微调的Video-LLaVa-7B和Qwen2-VL-7B-Instruct在OpenQA和CloseQA中表现优异,超越了之前的基准。然而,模型在空间推理和细粒度物体识别方面仍存在困难。

利用多模态大语言模型推进自我中心视频问答

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-30T00:00:00Z

上海AI实验室推出VeBrain通用智能大脑,集成视觉感知、空间推理和机器人控制,实现机器人像人类一样的“看到-思考-行动”。该模型通过关键点检测和技能识别,提升多模态理解与控制能力,测试结果显示其在多个任务中表现优异。

上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下

量子位
量子位 · 2025-06-05T08:29:11Z

浙江大学等团队提出了ViewSpatial-Bench基准,用于评估视觉语言模型的空间推理能力。该基准包含5700个问答对,涵盖多视角任务,显示当前模型在空间理解方面的不足。研究开发的MVSM模型在性能上显著提升,推动AI系统向类人空间认知能力发展。

5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文

量子位
量子位 · 2025-06-02T04:41:06Z

本研究提出Robo2VLM框架,旨在提升视觉语言模型在真实情境下的应用能力。通过多模态机器人轨迹数据生成视觉问答查询,Robo2VLM-1有效增强了模型在空间和交互推理方面的能力。

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新框架,解决机器人在与人类互动时缺乏视觉视角转换能力的问题,并引入合成数据集以支持空间推理任务的监督学习。

Embodied Cognition of Robots through Spatially-Based Synthetic Worlds

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种基于模糊语义的首阶逻辑方法,用于医学图像中神经的描述和识别。通过结合解剖学知识与模糊语义,开发了一种空间推理算法,帮助外科医生有效提取和识别神经,以制定手术计划。

First Order Logic with Fuzzy Semantics for Describing and Recognizing Nerves in Medical Images

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究提出了一个专注于空间推理的合成问答数据集,以解决视觉语言模型在空间推理方面的不足。经过训练的SpaRE模型在基准测试中性能提升达49%。

SpaRE:通过合成数据提升视觉语言模型的空间推理能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

上海AI实验室推出LEGO-Puzzles基准,评估多模态大模型的多步空间推理能力。研究表明,闭源模型如GPT-4o优于开源模型,但仍远不及人类。复杂空间任务中,模型的推理能力显著下降,尤其在多步推理方面。

GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

量子位
量子位 · 2025-04-23T03:42:24Z

该研究提出了Embodied-R框架,旨在解决预训练模型在高层次空间推理中的不足。通过结合大规模视觉-语言模型与小规模语言模型,并利用强化学习的新奖励系统,Embodied-R在有限计算资源下实现了深度思考能力。经过5000个具身视频样本训练后,该框架在空间推理任务中表现出与先进多模态模型相当的能力。

Embodied-R: A Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了新任务TRIG及指令数据集,旨在解决多模态大语言模型在文本丰富图像中的视觉文本定位问题,显著提升其空间推理和定位能力。

面向多模态大语言模型的视觉文本定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究提出了LEGO-Puzzles基准,用于评估多模态大语言模型(MLLMs)在多步空间推理中的表现。结果显示,最强的MLLMs正确率约为50%,而人类参与者的正确率超过90%。

LEGO Puzzles: How Do Multimodal Large Language Models Perform in Multi-Step Spatial Reasoning?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了OmniGeo,一种针对地理空间人工智能的多模态大语言模型。该模型专为处理卫星影像、地理空间元数据和文本描述等多种数据源而设计,研究表明其在多个地理空间任务中表现优于现有模型,具备更强的指令遵循能力和空间推理准确性。

OmniGeo: A Multimodal Large Language Model for Geospatial Artificial Intelligence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出遥感多模态视觉模式(RSMMVP)基准,评估多模态大型语言模型(MLLMs)在遥感图像中的表现,揭示其在视觉定位和空间推理方面的局限性,以推动未来发展。

以视觉为中心的遥感基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z
用LLM做半导体设计,IBM&MIT提出受神经启发的LLM推理网络SOLOMON

研究人员提出了一种名为SOLOMON的神经启发大型语言模型(LLM)推理网络,旨在提高半导体布局设计的适应性。SOLOMON采用多智能体推理系统,动态处理空间约束,集成思维评估机制,通过提示工程优化输出,减少错误并提高布局精度。实验表明,SOLOMON在空间推理能力上优于传统方法,为特定领域问题提供了高效解决方案。

用LLM做半导体设计,IBM&MIT提出受神经启发的LLM推理网络SOLOMON

机器之心
机器之心 · 2025-03-18T03:59:38Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码