小红花·文摘

$DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹$

DualVLN——基于像素目标点的双系统VLN基础模型：VLM做全局规划且预测中期路径，DiT策略头依托高频RGR输入和“来自VLM的低频潜在特征”生成动作轨迹

结构之法算法之道 ·

$InternVLA-N1——规划-执行双系统下的VLN基础模型：具备学习型的潜在规划能力，可部署在轮式、四足、双足人形上(含我司复现实践)$

InternVLA-N1——规划-执行双系统下的VLN基础模型：具备学习型的潜在规划能力，可部署在轮式、四足、双足人形上(含我司复现实践)

结构之法算法之道 ·

本文介绍了Matterport3D数据集及其仿真器，推动视觉与语言导航研究。Room-to-Room（R2R）数据集基于真实建筑，包含21,567条导航指令，旨在解决视觉语言导航中的数据孤岛问题，提供统一的研究基准。

VLN领域的“ImageNet”打造之路：从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE

结构之法算法之道 ·

本研究提出了一种重写驱动的增强（RAM）范式，以解决视觉-语言导航（VLN）中的数据稀缺问题。通过重写人类注释的训练数据，直接生成未见的观察-指令对，显著提升了模型的泛化能力和在多种环境中的表现。

From Seen to Unseen: Enhancing Vision-Language Navigation by Rewriting Observation-Instruction Using Foundation Models

BriefGPT - AI 论文速递 ·

本研究提出了一种模块化方法，将视觉语言导航(VLN)任务分解为四个子模块，利用大型语言模型(LLM)和视觉语言模型(VLM)进行零射门设置。通过动态规划计算全景序列与地标名称序列的对齐分数，在复杂的R2R-Habitat指令数据集上表现优于其他方法。

旅行：无训练的视觉与语言导航检索与对齐

BriefGPT - AI 论文速递 ·

本研究提出了NAVCON，一个基于R2R和RxR数据集的大规模视觉语言导航语料库。研究引入了四个核心的认知和语言基础导航概念，并开发了生成自然语言导航指令的算法，评估了注释质量，对未来研究和应用具有重要意义。

NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation

BriefGPT - AI 论文速递 ·

本研究探讨了利用CLIP模型进行零样本视觉语言导航，结果表明其导航能力优于传统监督学习方法。提出的LGX算法及其他方法在不同数据集上显著提升了成功率，展示了大型语言模型在机器人导航中的潜力。此外，研究还提出了VoroNav和OpenFMNav等新方法，进一步提高了导航效率和成功率，强调了视觉语言模型在复杂环境中的应用价值。

无需训练的数据下的视觉语言模型推理物体导航

BriefGPT - AI 论文速递 ·

本文研究了视觉-语言导航技术在物理机器人中的应用，提出多种方法提升机器人在未知环境中的表现。通过大规模仿真框架RoboCasa，结合语言指令和目标图像，显著提高了机器人的泛化能力和任务成功率。

GRS：从现实世界图像生成机器人仿真任务

BriefGPT - AI 论文速递 ·

本研究提出了一种多分支架构用于视觉-语言导航，通过多样化视觉输入提升模型的泛化性能。实验结果显示，该方法在多个基准测试中表现优异，显著超越现有最佳结果。此外，针对无人机导航的挑战，开发了OpenUAV平台和UAV-Need-Help基准，验证了新方法的有效性，但仍需缩小与人类操作员的差距。

Flex：基于基础模型的文本指令视觉导航的端到端方法

BriefGPT - AI 论文速递 ·

研究探讨了无人机在视觉-语言导航中的挑战，提出了OpenUAV平台和UAV-Need-Help基准，以及处理多模态信息的导航模型。这些创新提升了无人机的导航能力，但仍与人类操作员有差距。研究还涉及模拟与实际转化、空中视觉对话导航和开放集零样本测试，强调了人类驱动导航策略的重要性和未来发展机遇。

Real-World UAV Vision-Language Navigation: Platforms, Benchmarks, and Methodologies

BriefGPT - AI 论文速递 ·

本文介绍了一种用于视觉语言导航的预训练和微调范式，通过自监督学习训练图像-文本-动作三元组，提升导航性能。研究提出了子指令注意力、结构化状态演化模型和基于大型语言模型的生成代理Cog-GA等多种方法，解决了多模态理解和空间推理的挑战，显著提高了导航效率。

基于持续学习的视觉-语言导航

BriefGPT - AI 论文速递 ·

本文介绍了基于大语言模型的导航代理NavGPT，展示其在视觉和语言导航中的应用。NavGPT通过分解指令、整合常识知识和适应特殊情况，提升了导航能力和推理可解释性。同时，研究提出了导航思维链以改善自主导航决策性能，并开发了基于视频的视觉语言模型NaVid，以应对导航中的多种挑战。

NavGPT-2：发掘大型视觉语言模型的导航推理能力

BriefGPT - AI 论文速递 ·

本文综述了视觉-语言导航（VLN）的研究进展，分析了任务、评价指标和方法，强调了当前的局限性和未来机遇。研究探讨了如何通过自然语言进行有效导航，并提出了新的框架和方法，以提高导航能力和可解释性，特别是在不同环境中的应用。

视觉与语言导航的现状和未来：基于基础模型时代的调查

BriefGPT - AI 论文速递 ·

本研究通过使用900个未标记的3D建筑自动创建VLN数据集，解决了数据稀缺性问题，显著提高了VLN模型的泛化能力。实验结果表明，该方法在REVERIE和SOON数据集上分别提高了7.1%和8.1%的SPL性能。此外，研究探讨了视觉-语言导航技术在物理机器人中的应用及提升未知环境表现的方法。

人类感知视觉 - 语言导航：通过动态人类交互缩小模拟与现实之间的鸿沟

BriefGPT - AI 论文速递 ·

本文提出多种基于提示学习的方法，以提高视觉转换器（ViT）在领域泛化中的性能。通过无标签领域通用化框架和层次对比式视觉提示等技术，实验结果表明这些方法在医学图像分类和视觉语言导航任务中优于现有技术，显著提升了模型的泛化能力和准确性。

跨域泛化的过渡式视觉 - 语言提示学习

BriefGPT - AI 论文速递 ·

DAVIS是一种通过鼓励测试时间视觉一致性来学习在看不见的环境下的泛化能力的方法。它利用相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应，并结合强化学习和Momentum Contrast来增强模仿学习。在R2R和RxR数据集上的实验结果表明，DAVIS在视觉语言导航中取得了最新的模型无关进展。

鸟瞰视角下的视觉语言导航场景图

BriefGPT - AI 论文速递 ·

CVPR 2023 | 美团技术团队精选论文解读

美团技术团队 ·