小红花·文摘

四大学科同时发现：智能是高维空间的导航

极道 ·

本研究提出了OSUniverse基准，旨在评估AI代理在复杂多模态桌面任务中的导航能力。通过逐步增加任务复杂性，确保代理的表现不超过现有最先进水平，为GUI导航AI的进展提供可靠依据。

OSUniverse：多模态GUI导航AI代理基准

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过图形表示与多维缩放技术，解决自动驾驶中的泛化能力不足问题。该方法通过嵌入图节点简化学习过程，实现降维，提高车辆在复杂环境中的导航能力。

使用多维缩放学习道路网络的等距嵌入

BriefGPT - AI 论文速递 ·

本研究提出了适应性视觉语言导航（AdaVLN），旨在提升机器人在动态环境中的导航能力。通过引入AdaVLN模拟器和AdaR2R数据集，评估了该方法在实际环境中缩小模拟与现实之间差距的潜力。

AdaVLN: Visual Language Navigation for Human Movement in Dynamic Environments

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的计算模型，通过动态扩展认知地图，增强自主体在复杂环境中的导航能力。该模型借鉴动物导航策略，能够快速学习环境结构，并在没有先验知识的情况下进行有效导航。

Learning Dynamic Cognitive Maps for Autonomous Navigation

BriefGPT - AI 论文速递 ·

本文介绍了一种新型光谱学习算法，旨在解决SLAM（同时定位与制图）中的距离数据处理问题。该算法在统计一致性、计算要求低和跟踪表现方面表现优异。同时，研究提出了结合LiDAR和视觉的几何特征融合框架，提升了移动机器人在复杂环境中的导航能力。此外，多个新数据集和方法的引入显著提高了SLAM算法的性能和准确性。

RaNDT SLAM：基于强度增强法线分布变换的雷达SLAM

BriefGPT - AI 论文速递 ·

本文介绍了一种基于深度神经网络的算法，能够将点云、自然语言和操作轨迹数据嵌入共享空间，从而提升机器人操作的精度和推理效率。研究开发了多种模型，使机器人能够根据自然语言指令和图像进行物体识别和操作，成功率达到80%。通过结合视觉-语言模型和大型语言模型，增强了机器人在复杂环境中的导航和任务执行能力。

DM2RM：基于开放词汇指令的双模式多模态排名用于目标物体和容器

BriefGPT - AI 论文速递 ·

本文综述了视觉-语言导航（VLN）的研究进展，分析了任务、评价指标和方法，强调了当前的局限性和未来机遇。研究探讨了如何通过自然语言进行有效导航，并提出了新的框架和方法，以提高导航能力和可解释性，特别是在不同环境中的应用。

视觉与语言导航的现状和未来：基于基础模型时代的调查

BriefGPT - AI 论文速递 ·

本文介绍了多种基于知识增强推理模型的视觉与语言导航方法，提升了代理在自然语言指令下的导航能力。通过整合视觉、历史和指令特征，实验结果显示这些方法在多个数据集上表现优异，显著提高了导航的成功率和可解释性。

增强型常识知识用于远程物体定位

BriefGPT - AI 论文速递 ·

本研究探讨了视觉代理在室外场景中的导航能力，提出了多种提升导航性能的方法，包括利用大规模视频数据集和预训练模型。实验结果表明，新方法在多个基准测试中取得了显著进展，尤其在复杂环境中表现优异。

当前的视觉说明模型假设图像是完整呈现场景的完美捕捉，但在真实世界中，图像可能没有提供良好的视角，限制了对细粒度场景的理解。为了克服这一限制，提出了一项名为“实体说明”的新任务，将视觉说明模型与导航能力相结合，主动探索场景并减少视觉模糊。构建了一个包含10K个混乱物体的3D场景和每个场景三个注释段落的ET-Cap数据集，用于支持该任务。提出了一个级联实体说明模型（CaBOT），由导航器和说明器组成，用于处理这个任务。广泛的实验证明该模型优于其他基线模型。数据集、代码和模型可在链接中获得。