小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和空间感知能力,解决了理解与生成之间的“空间断层”。该模型在电商、具身智能和3D重建等领域应用广泛,显著提升创意验证效率。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东开源的多模态基础模型JoyAI-Image-Edit支持文生图、图像理解和指令引导的图像编辑,具备像素级精细化编辑和空间感知能力,解决了理解与生成之间的“空间断层”。该模型在电商、具身智能和3D重建等领域广泛应用,提升了创意验证效率。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东探索研究院开源了多模态基础模型JoyAI-Image-Edit,支持文生图、图像理解和指令引导的图像编辑。该模型实现了像素级精细化编辑和空间智能,解决了理解与生成之间的“空间断层”,在空间理解和编辑能力上达到世界一流水平,广泛应用于电商、具身智能和3D重建等领域,显著提升创意验证效率。

京东正式开源JoyAI-Image-Edit:AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者
京东科技开发者 · 2026-04-08T02:45:34Z
GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

GLM-5.1模型上线,编程能力较前代提升近10分,接近全球最强模型Opus 4.6。用户反馈积极,支持多平台接入,已售罄。实测显示其在空间理解和动态补全方面表现优异,适合复杂任务。

GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

量子位
量子位 · 2026-03-28T06:06:38Z
刚刚,Nano Banana 2 发布!便宜又大碗,体验后我发现这些细节

Google发布了新一代图像生成模型Nano Banana 2,提升了图像质量和理解能力。该模型接入丰富的知识库,能够更好地理解空间和比例,生成的图像更加自然和准确。用户可以以低成本生成高质量图像,整体体验显著改善。同时,Google加强了防伪技术,以应对假图问题。

刚刚,Nano Banana 2 发布!便宜又大碗,体验后我发现这些细节

爱范儿
爱范儿 · 2026-02-27T02:40:21Z

商汤日日新发布的SenseNova-SI系列开源模型在空间智能领域取得突破,评测表现超越GPT-5等顶尖模型,显著提升空间理解能力,为AI在物理世界的应用奠定基础。

商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5

量子位
量子位 · 2025-11-11T07:36:08Z
为什么世界模型是人工智能的下一个重大突破

Pim de Witte创立了AI实验室General Intuition,获得1.337亿美元融资,利用视频游戏数据训练AI,开发具有空间理解能力的模型,应用于无人机和机器人等领域。尽管面临竞争和风险,De Witte认为游戏数据将促进AI在现实世界的应用。

为什么世界模型是人工智能的下一个重大突破

The Verge
The Verge · 2025-10-17T01:30:00Z

元戎推出的VLA(视觉语言动作)模型,标志着智能辅助驾驶的新阶段,具备更强的语言和空间理解能力,支持多芯片平台,未来将应用于Robotaxi和机器人。该模型基于GPT架构,提升推理能力,预计将推动行业发展。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

量子位
量子位 · 2025-08-27T09:34:09Z

智源研究院推出RoboBrain 2.0和RoboOS 2.0,前者在空间理解、时间建模和长链推理方面取得突破,后者为具身智能提供SaaS开源框架,支持多智能体协作,推动机器人向群体智能转型。

具身智能大脑+首个SaaS开源框架,智源研究院刷新10项测评基准,加速群体智能新范式

量子位
量子位 · 2025-07-14T06:06:40Z

UCLA与谷歌合作研发的3DLLM-MEM模型首次赋予AI在复杂3D环境中长时记忆能力,成功率超基线16.5%。该模型通过双记忆架构和动态更新机制,显著提升了AI的空间理解和任务执行能力。

让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%

量子位
量子位 · 2025-06-04T09:21:02Z
Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解

研究者提出MultiSPA数据集和Multi-SpatialMLLM模型,以解决多模态大型语言模型在空间理解方面的局限,显著提升了多帧空间推理能力,准确率达到80-90%。该模型在多任务学习中表现优异,填补了研究空白,具有广泛的应用潜力。

Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解

实时互动网
实时互动网 · 2025-05-28T03:50:42Z

谷歌DeepMind推出Gemini Robotics,结合AI与物理世界,提升机器人在复杂任务中的表现。新模型具备通用性、互动性和灵活性,能够适应不同环境并执行精细操作,同时增强空间理解,提高机器人安全性与智能。

Gemini Robotics将人工智能引入物理世界

Google DeepMind Blog
Google DeepMind Blog · 2025-03-12T15:00:00Z

谷歌DeepMind推出基于Gemini 2.0的Gemini Robotics和Gemini Robotics-ER模型,旨在提升机器人在现实世界中的应用能力。Gemini Robotics具备先进的视觉-语言-行动能力,能够适应多种环境并执行复杂任务;而Gemini Robotics-ER专注于空间理解,增强机器人控制能力。这两者的结合提升了机器人的互动性和灵活性,推动了安全性研究,助力下一代人形机器人发展。

Gemini Robotics将人工智能引入物理世界

Google DeepMind Blog
Google DeepMind Blog · 2025-03-12T15:00:00Z

本文提出了SpatialVLA模型,旨在解决机器人操作中的空间理解问题。通过引入Ego3D位置编码和自适应动作网格,提升机器人在多任务和新环境中的适应能力。实验结果表明,该模型在复杂动作轨迹推理和多任务学习方面表现优异。

Spatial Visual-Language-Action Model: Exploring Spatial Representations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-27T00:00:00Z

本研究提出了一种网格叠加方法,通过在输入图像上添加9x9黑色网格,增强多模态模型的空间理解能力。实验结果表明,该方法显著提高了空间定位的准确性,适用于机器人操作、医学成像和自主导航等领域。

Grid-Augmented Vision: A Simple and Effective Approach to Enhance Spatial Understanding in Multi-Modal Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

大型语言模型(LLMs)与三维空间数据(3D-LLMs)的结合增强了对物理空间的理解与互动能力。本文综述了LLMs处理3D数据的方法,强调其在上下文学习、推理和空间理解方面的优势,分析了不同3D数据表示的应用,并指出未来研究需创新方法以充分发挥3D-LLMs的潜力。

少说话,多行动:研究大型语言模型在3D具身环境中的物理常识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

大型语言模型(LLMs)与三维空间数据(3D-LLMs)的结合增强了对物理空间的理解与交互能力。本文综述了LLMs处理3D数据的方法,强调其在上下文学习、推理和空间理解方面的优势,分析了不同3D数据表示的应用,并指出未来研究需创新方法以充分发挥3D-LLMs的潜力。

分析大语言模型辅助3D场景操作的多模态互动策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本文提出了一种新颖的视觉-时间上下文提示方法,旨在解决视觉语言模型在开放世界环境中的决策挑战。该方法利用物体分割信息,帮助低级策略基于视觉观察进行预测,有效应对复杂任务的空间理解问题。

ROCKET-1:通过视觉-时间上下文提示掌握开放世界交互

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-23T00:00:00Z

本文综述了大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合进展,强调了它们在处理、理解和生成3D数据方面的能力。同时,指出了LLMs在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等方面的独特优势,并强调了它们在促进空间理解和互动方面的潜力。

更多文本,较少点:走向3D数据高效点语言理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本文综述了大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合进展,强调了它们在处理、理解和生成3D数据方面的能力。同时,指出了LLMs在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等方面的独特优势,并强调了它们在促进空间理解和互动方面的潜力。

LLMI3D:通过单张2D图像赋能大语言模型的3D感知

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码