小红花·文摘

本文介绍了NavA3框架，旨在解决具身导航中的高层次指令理解与空间定位问题。该框架包括全局策略和局部策略，利用视觉语言模型解析指令并确定目标位置，随后通过NaviAfford模型实现精确导航。研究表明，NavA3在真实环境中的长时导航任务中表现优异，展现出强大的跨载体能力。

NavA3——双VLM架构下的先“推理解析”后“定位导航”：理解任意指令，导航至任意地点，查找任意目标

结构之法算法之道 ·

该研究提出了一种新颖的自回归框架——生成空间变换器（GST），用于改善空间定位和视图预测任务的不足。通过联合优化相机姿态估计和新视图合成，模型显著提升了这两项任务的性能，强调了空间意识与视觉预测之间的内在关系。

Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction

BriefGPT - AI 论文速递 ·

Object Language Video Transformer (OLViT)是一种新颖的视频对话模型，解决了视频对话中准确的物体跟踪、空间和时间定位以及长期推理的挑战。它通过结合物体状态跟踪和语言状态跟踪来维护全局对话状态。OLViT非常灵活，可以与大型语言模型（LLM）无缝集成，适用于不同的数据集和任务。在具有挑战性的数据集上的评估结果显示，OLViT实现了最先进的性能。

OLViT: 基于注意力嵌入的视频对话多模态状态追踪

BriefGPT - AI 论文速递 ·

本文研究了CLIP图像编码器，分解了图像表示为各个图像块、模型层和注意力头之间的总和，并利用CLIP的文本表示来解释各个部分。通过解释注意力头和图像块，揭示了CLIP中的空间定位和许多头的特定角色。最后，利用这一理解，从CLIP中去除虚假特征，并创建了一个强大的零样本图像分割器。

通过基于文本的分解解释 CLIP 的图像表示

BriefGPT - AI 论文速递 ·