小红花·文摘

本研究提出了一种新颖的导航框架，解决了传统视觉语言模型在复杂环境中缺乏几何信息的问题。通过结合动态全球记忆模块与自我观察，提升了空间推理和决策效率，实验结果表明该方法在物体导航任务中表现优异。

Mem2Ego: Enhancing Vision-Language Models with Global-to-Ego Memory for Concrete Navigation Towards Long-Term Goals

BriefGPT - AI 论文速递 ·

本文提出了一种新型导航框架，结合大型语言模型和视觉语言技术，应用于视觉导航任务。框架包括指令解析、视觉-语言地图构建、定位和动作预测等组件。实验结果表明，该方法在真实环境中优于现有基线，显示出在多机器人协作和工业异常检测等领域的潜力，显著提高了模型的性能和准确率。

VisionGPT: 基于 LLM 辅助的实时异常检测用于安全视觉导航

BriefGPT - AI 论文速递 ·

该文介绍了一个新的导航框架，用于在真实世界中解决VLN任务。该框架包括四个关键组成部分，能够将语言指令转换为宏操作描述、构建实时的视觉-语言地图、基于语言索引的定位器以及基于DD-PPO的本地控制器。作者在实验室环境中使用Interbotix LoCoBot WX250对该流程进行了评估，并发现该流程优于SOTA VLN基线。

机器人任务规划的视觉语言解释器

BriefGPT - AI 论文速递 ·