VLN领域的“ImageNet”打造之路:从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE

💡 原文中文,约5100字,阅读约需13分钟。
📝

内容提要

本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。

🎯

关键要点

  • Matterport3D数据集和仿真器推动视觉与语言导航研究。
  • Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令。
  • R2R数据集旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
  • Matterport3D是一个大规模RGB-D数据集,包含90个真实建筑的10,800张全景RGB-D图像。
  • Matterport3D仿真器是基于该数据集构建的RL环境,支持多种具身视觉与语言任务。
  • R2R数据集的导航指令平均长度为29个单词,描述穿越多个房间的轨迹。
  • R2R数据集为VLN领域提供了首个黄金标准,包含真实家庭场景的毫米级复刻。
  • R2R数据集的核心指标包括导航成功率、路径长度和导航误差。
  • 数据收集过程中,工作人员通过交互式3D环境编写导航指令,确保指令与路径偏差小于3米。
  • R2R数据集的指令平均长度明显长于视觉问答数据集,词汇量相对有限。
➡️

继续阅读