小红花·文摘

京东正式开源JoyAI-Image-Edit：AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者 ·

京东正式开源JoyAI-Image-Edit：AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者 ·

京东正式开源JoyAI-Image-Edit：AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者 ·

GLM-5.1上线，编程表现贴Opus 4.6开大，Coding plan瞬间断货

量子位 ·

刚刚，Nano Banana 2 发布！便宜又大碗，体验后我发现这些细节

爱范儿 ·

商汤日日新发布的SenseNova-SI系列开源模型在空间智能领域取得突破，评测表现超越GPT-5等顶尖模型，显著提升空间理解能力，为AI在物理世界的应用奠定基础。

商汤日日新开源模型实现空间智能性能突破，多项评测领先 GPT-5

量子位 ·

为什么世界模型是人工智能的下一个重大突破

The Verge ·

元戎推出的VLA（视觉语言动作）模型，标志着智能辅助驾驶的新阶段，具备更强的语言和空间理解能力，支持多芯片平台，未来将应用于Robotaxi和机器人。该模型基于GPT架构，提升推理能力，预计将推动行业发展。

元戎率先供应VLA方案！打掉车企数亿自研预算，下探至10万级车型

量子位 ·

智源研究院推出RoboBrain 2.0和RoboOS 2.0，前者在空间理解、时间建模和长链推理方面取得突破，后者为具身智能提供SaaS开源框架，支持多智能体协作，推动机器人向群体智能转型。

具身智能大脑+首个SaaS开源框架，智源研究院刷新10项测评基准，加速群体智能新范式

量子位 ·

UCLA与谷歌合作研发的3DLLM-MEM模型首次赋予AI在复杂3D环境中长时记忆能力，成功率超基线16.5%。该模型通过双记忆架构和动态更新机制，显著提升了AI的空间理解和任务执行能力。

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

量子位 ·

Meta AI 推出 Multi-SpatialMLLM：基于多模态大型语言模型的多帧空间理解

实时互动网 ·

谷歌DeepMind推出Gemini Robotics，结合AI与物理世界，提升机器人在复杂任务中的表现。新模型具备通用性、互动性和灵活性，能够适应不同环境并执行精细操作，同时增强空间理解，提高机器人安全性与智能。

谷歌DeepMind推出基于Gemini 2.0的Gemini Robotics和Gemini Robotics-ER模型，旨在提升机器人在现实世界中的应用能力。Gemini Robotics具备先进的视觉-语言-行动能力，能够适应多种环境并执行复杂任务；而Gemini Robotics-ER专注于空间理解，增强机器人控制能力。这两者的结合提升了机器人的互动性和灵活性，推动了安全性研究，助力下一代人形机器人发展。

Gemini Robotics将人工智能引入物理世界

Google DeepMind Blog ·

本文提出了SpatialVLA模型，旨在解决机器人操作中的空间理解问题。通过引入Ego3D位置编码和自适应动作网格，提升机器人在多任务和新环境中的适应能力。实验结果表明，该模型在复杂动作轨迹推理和多任务学习方面表现优异。

Spatial Visual-Language-Action Model: Exploring Spatial Representations

BriefGPT - AI 论文速递 ·

本研究提出了一种网格叠加方法，通过在输入图像上添加9x9黑色网格，增强多模态模型的空间理解能力。实验结果表明，该方法显著提高了空间定位的准确性，适用于机器人操作、医学成像和自主导航等领域。

Grid-Augmented Vision: A Simple and Effective Approach to Enhance Spatial Understanding in Multi-Modal Agents

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的结合增强了对物理空间的理解与互动能力。本文综述了LLMs处理3D数据的方法，强调其在上下文学习、推理和空间理解方面的优势，分析了不同3D数据表示的应用，并指出未来研究需创新方法以充分发挥3D-LLMs的潜力。

少说话，多行动：研究大型语言模型在3D具身环境中的物理常识

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的结合增强了对物理空间的理解与交互能力。本文综述了LLMs处理3D数据的方法，强调其在上下文学习、推理和空间理解方面的优势，分析了不同3D数据表示的应用，并指出未来研究需创新方法以充分发挥3D-LLMs的潜力。

分析大语言模型辅助3D场景操作的多模态互动策略

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的视觉-时间上下文提示方法，旨在解决视觉语言模型在开放世界环境中的决策挑战。该方法利用物体分割信息，帮助低级策略基于视觉观察进行预测，有效应对复杂任务的空间理解问题。

ROCKET-1：通过视觉-时间上下文提示掌握开放世界交互

BriefGPT - AI 论文速递 ·

本文综述了大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合进展，强调了它们在处理、理解和生成3D数据方面的能力。同时，指出了LLMs在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等方面的独特优势，并强调了它们在促进空间理解和互动方面的潜力。

更多文本，较少点：走向3D数据高效点语言理解

BriefGPT - AI 论文速递 ·

LLMI3D：通过单张2D图像赋能大语言模型的3D感知

BriefGPT - AI 论文速递 ·