小红花·文摘

CorrectNav是一种视觉-语言-动作导航模型，通过自我修正机制提升导航性能。该方法关注感知和动作错误，采用四个步骤进行自我纠正。在VLN-CE基准测试中，CorrectNav的成功率分别为65.1%和69.3%，优于现有模型，具备强大的纠错和动态障碍物规避能力。

CorrectNav——基于VLM构建带“自我纠正飞轮”的VLN：通过「视觉输入和语言指令」预测导航动作，且从动作和感知层面生成自我修正数据

结构之法算法之道 ·

本研究提出了一种新的视频基础视觉-语言-动作模型Uni-NaVid，旨在克服现有导航模型的局限性，实现多种导航任务的无缝执行。实验结果表明，Uni-NaVid在多个基准测试中表现优异，具备良好的通用性。

Uni-NaVid: A Video-Based Vision-Language-Action Model for Unifying Embodied Navigation Tasks

BriefGPT - AI 论文速递 ·

本文介绍了一个新的数据集，用于改善机器人与人类之间的互动能力。通过使用多个现实图像中的可见物体来回应多方面的指令，解决了复杂任务的挑战。测试了多种最先进的视觉和语言导航模型，但没有取得令人满意的结果。提出了一种新颖的交互式导航-指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但仍有改进空间。

寻找更好契合度的方法？一种适应个体驾驶员的渐进式学习多模态物体引用框架

BriefGPT - AI 论文速递 ·