小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

本文回顾了作者创业11年的历程,并介绍了上海AI LAB发布的DualVLN模型。该模型结合视觉-语言导航推理与实时控制,采用双系统架构,分别负责高层推理和低层动作执行,提升了动态环境中的导航能力。实验结果表明,DualVLN在多种场景中表现优异,成功率高,导航误差低。

DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法 算法之道
结构之法 算法之道 · 2026-01-19T10:48:45Z
InternVLA-N1——规划-执行双系统下的VLN基础模型:具备学习型的潜在规划能力,可部署在轮式、四足、双足人形上(含我司复现实践)

本文介绍了InternVLA-N1,一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力,提升了机器人在动态环境中的表现。研究者构建了大规模数据集InternData-N1以支持模型训练,并在多个基准上验证了其有效性。

InternVLA-N1——规划-执行双系统下的VLN基础模型:具备学习型的潜在规划能力,可部署在轮式、四足、双足人形上(含我司复现实践)

结构之法 算法之道
结构之法 算法之道 · 2025-09-19T14:25:01Z

本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。

VLN领域的“ImageNet”打造之路:从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE

结构之法 算法之道
结构之法 算法之道 · 2025-08-20T13:24:31Z

本研究提出了一种重写驱动的增强(RAM)范式,以解决视觉-语言导航(VLN)中的数据稀缺问题。通过重写人类注释的训练数据,直接生成未见的观察-指令对,显著提升了模型的泛化能力和在多种环境中的表现。

From Seen to Unseen: Enhancing Vision-Language Navigation by Rewriting Observation-Instruction Using Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究探讨视觉语言导航任务,分为四个子模块,利用大型语言模型和视觉语言模型进行零射门设置。提出一种新方法,通过动态规划计算全景序列与地标名称序列的对齐分数,在R2R-Habitat数据集上表现优异。

旅行:无训练的视觉与语言导航检索与对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

研究探讨了无人机在视觉-语言导航中的挑战,提出了OpenUAV平台和UAV-Need-Help基准,以及处理多模态信息的导航模型。这些创新提升了无人机的导航能力,但仍与人类操作员有差距。研究还涉及模拟与实际转化、空中视觉对话导航和开放集零样本测试,强调了人类驱动导航策略的重要性和未来发展机遇。

面向现实无人机视觉-语言导航:平台、基准和方法论

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本研究提出了一种多分支架构(MBA),旨在改善视觉-语言导航中的自主导航挑战。实验证明,该方法在多个基准测试中表现优异,超过了现有最佳结果。

相信眼睛吗?利用视觉扰动增强视觉-语言导航

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

这篇综述回顾了视觉-语言导航(VLN)的研究进展,介绍了系统架构、研究方法和数据集,并分析了当前面临的问题和挑战,探讨了未来发展方向。

视觉与语言导航的现状和未来:基于基础模型时代的调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

LLM基础代理在视觉语言导航(VLN)任务中展示了零射击性能。通过AO-Planner框架,实现了适应性导航的运动规划和动作决策制定。在R2R-CE基准测试中取得了最先进的零射击性能(SPL提高了5.5%)。

以基础模型为基础的面向便利性的连续视觉语言导航规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

该综述回顾了视觉-语言导航(VLN)的研究进展,介绍了系统架构、基于方法的研究和常用基准数据集,并分析了当前研究面临的问题和挑战。同时,探讨了该领域的未来发展方向。

人类感知视觉 - 语言导航:通过动态人类交互缩小模拟与现实之间的鸿沟

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

本文提出了一套方法来解决视觉语言导航任务中的问题,通过维护拓扑地图和引入导航思维链模块来增强导航能力,建立了一个提高大型语言模型导航能力和解释性的流水线。实验证明该方法有效。

增强型常识知识用于远程物体定位

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

DAVIS是一种通过鼓励测试时间视觉一致性来学习在看不见的环境下的泛化能力的方法。它利用相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应,并结合强化学习和Momentum Contrast来增强模仿学习。在R2R和RxR数据集上的实验结果表明,DAVIS在视觉语言导航中取得了最新的模型无关进展。

鸟瞰视角下的视觉语言导航场景图

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-09T00:00:00Z
CVPR 2023 | 美团技术团队精选论文解读

美团在CVPR 2023上发表了七篇论文,涉及多个领域的研究。其中一篇论文介绍了一种新的自适应区域划分方法,用于视觉-语言导航,取得了最优的性能。另一篇论文介绍了一种新的图文展示布局生成方法,已在美团App的外投首页广告制图等场景落地。美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,推动优秀人才培养。

CVPR 2023 | 美团技术团队精选论文解读

美团技术团队
美团技术团队 · 2023-06-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码