小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

本文回顾了作者创业11年的历程,并介绍了上海AI LAB发布的DualVLN模型。该模型结合视觉-语言导航推理与实时控制,采用双系统架构,分别负责高层推理和低层动作执行,提升了动态环境中的导航能力。实验结果表明,DualVLN在多种场景中表现优异,成功率高,导航误差低。

DualVLN——基于像素目标点的双系统VLN基础模型:VLM做全局规划且预测中期路径,DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法 算法之道
结构之法 算法之道 · 2026-01-19T10:48:45Z
InternVLA-N1——规划-执行双系统下的VLN基础模型:具备学习型的潜在规划能力,可部署在轮式、四足、双足人形上(含我司复现实践)

本文介绍了InternVLA-N1,一个结合视觉和语言指令的双系统导航模型,具备学习型潜在规划能力,提升了机器人在动态环境中的表现。研究者构建了大规模数据集InternData-N1以支持模型训练,并在多个基准上验证了其有效性。

InternVLA-N1——规划-执行双系统下的VLN基础模型:具备学习型的潜在规划能力,可部署在轮式、四足、双足人形上(含我司复现实践)

结构之法 算法之道
结构之法 算法之道 · 2025-09-19T14:25:01Z

本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。

VLN领域的“ImageNet”打造之路:从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE

结构之法 算法之道
结构之法 算法之道 · 2025-08-20T13:24:31Z

本研究提出了一种重写驱动的增强(RAM)范式,以解决视觉-语言导航(VLN)中的数据稀缺问题。通过重写人类注释的训练数据,直接生成未见的观察-指令对,显著提升了模型的泛化能力和在多种环境中的表现。

From Seen to Unseen: Enhancing Vision-Language Navigation by Rewriting Observation-Instruction Using Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究提出了一种模块化方法,将视觉语言导航(VLN)任务分解为四个子模块,利用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。通过动态规划计算全景序列与地标名称序列的对齐分数,在复杂的R2R-Habitat指令数据集上表现优于其他方法。

旅行:无训练的视觉与语言导航检索与对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了NAVCON,一个基于R2R和RxR数据集的大规模视觉语言导航语料库。研究引入了四个核心的认知和语言基础导航概念,并开发了生成自然语言导航指令的算法,评估了注释质量,对未来研究和应用具有重要意义。

NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究探讨了利用CLIP模型进行零样本视觉语言导航,结果表明其导航能力优于传统监督学习方法。提出的LGX算法及其他方法在不同数据集上显著提升了成功率,展示了大型语言模型在机器人导航中的潜力。此外,研究还提出了VoroNav和OpenFMNav等新方法,进一步提高了导航效率和成功率,强调了视觉语言模型在复杂环境中的应用价值。

无需训练的数据下的视觉语言模型推理物体导航

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

本文研究了视觉-语言导航技术在物理机器人中的应用,提出多种方法提升机器人在未知环境中的表现。通过大规模仿真框架RoboCasa,结合语言指令和目标图像,显著提高了机器人的泛化能力和任务成功率。

GRS:从现实世界图像生成机器人仿真任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-20T00:00:00Z

本研究提出了一种多分支架构用于视觉-语言导航,通过多样化视觉输入提升模型的泛化性能。实验结果显示,该方法在多个基准测试中表现优异,显著超越现有最佳结果。此外,针对无人机导航的挑战,开发了OpenUAV平台和UAV-Need-Help基准,验证了新方法的有效性,但仍需缩小与人类操作员的差距。

Flex:基于基础模型的文本指令视觉导航的端到端方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

研究探讨了无人机在视觉-语言导航中的挑战,提出了OpenUAV平台和UAV-Need-Help基准,以及处理多模态信息的导航模型。这些创新提升了无人机的导航能力,但仍与人类操作员有差距。研究还涉及模拟与实际转化、空中视觉对话导航和开放集零样本测试,强调了人类驱动导航策略的重要性和未来发展机遇。

Real-World UAV Vision-Language Navigation: Platforms, Benchmarks, and Methodologies

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本文介绍了一种用于视觉语言导航的预训练和微调范式,通过自监督学习训练图像-文本-动作三元组,提升导航性能。研究提出了子指令注意力、结构化状态演化模型和基于大型语言模型的生成代理Cog-GA等多种方法,解决了多模态理解和空间推理的挑战,显著提高了导航效率。

基于持续学习的视觉-语言导航

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本文介绍了基于大语言模型的导航代理NavGPT,展示其在视觉和语言导航中的应用。NavGPT通过分解指令、整合常识知识和适应特殊情况,提升了导航能力和推理可解释性。同时,研究提出了导航思维链以改善自主导航决策性能,并开发了基于视频的视觉语言模型NaVid,以应对导航中的多种挑战。

NavGPT-2:发掘大型视觉语言模型的导航推理能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-17T00:00:00Z

本文综述了视觉-语言导航(VLN)的研究进展,分析了任务、评价指标和方法,强调了当前的局限性和未来机遇。研究探讨了如何通过自然语言进行有效导航,并提出了新的框架和方法,以提高导航能力和可解释性,特别是在不同环境中的应用。

视觉与语言导航的现状和未来:基于基础模型时代的调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

本研究通过使用900个未标记的3D建筑自动创建VLN数据集,解决了数据稀缺性问题,显著提高了VLN模型的泛化能力。实验结果表明,该方法在REVERIE和SOON数据集上分别提高了7.1%和8.1%的SPL性能。此外,研究探讨了视觉-语言导航技术在物理机器人中的应用及提升未知环境表现的方法。

人类感知视觉 - 语言导航:通过动态人类交互缩小模拟与现实之间的鸿沟

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

本文提出多种基于提示学习的方法,以提高视觉转换器(ViT)在领域泛化中的性能。通过无标签领域通用化框架和层次对比式视觉提示等技术,实验结果表明这些方法在医学图像分类和视觉语言导航任务中优于现有技术,显著提升了模型的泛化能力和准确性。

跨域泛化的过渡式视觉 - 语言提示学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z

DAVIS是一种通过鼓励测试时间视觉一致性来学习在看不见的环境下的泛化能力的方法。它利用相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应,并结合强化学习和Momentum Contrast来增强模仿学习。在R2R和RxR数据集上的实验结果表明,DAVIS在视觉语言导航中取得了最新的模型无关进展。

鸟瞰视角下的视觉语言导航场景图

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-09T00:00:00Z
CVPR 2023 | 美团技术团队精选论文解读

美团在CVPR 2023上发表了七篇论文,涉及多个领域的研究。其中一篇论文介绍了一种新的自适应区域划分方法,用于视觉-语言导航,取得了最优的性能。另一篇论文介绍了一种新的图文展示布局生成方法,已在美团App的外投首页广告制图等场景落地。美团科研合作致力于搭建美团技术团队与高校、科研机构、智库的合作桥梁和平台,推动优秀人才培养。

CVPR 2023 | 美团技术团队精选论文解读

美团技术团队
美团技术团队 · 2023-06-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码