小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了Matterport3D数据集及其仿真器，推动视觉与语言导航研究。Room-to-Room（R2R）数据集基于真实建筑，包含21,567条导航指令，旨在解决视觉语言导航中的数据孤岛问题，提供统一的研究基准。

VLN领域的“ImageNet”打造之路：从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE

结构之法算法之道 ·

本研究提出了RoomTour3D数据集，通过网络房间导览视频生成多样化的导航指令，显著提升了视觉与语言导航（VLN）任务的性能。

RoomTour3D: Geometric-Based Instruction Tuning for Immersive Navigation

BriefGPT - AI 论文速递 ·

本研究提出自我精炼数据飞轮(SRDF)，通过指令生成器与导航器的协作，迭代生成高质量的导航指令和轨迹对，有效解决了高质量数据的挑战。实验结果显示，导航器在R2R测试集上的性能从70%提升至78%。

Self-Refining Data Flywheel Drives Self-Supervised Learning in Language-Guided Navigation

BriefGPT - AI 论文速递 ·