VLN领域的“ImageNet”打造之路:从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE
💡
原文中文,约5100字,阅读约需13分钟。
📝
内容提要
本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
🎯
关键要点
- Matterport3D数据集和仿真器推动视觉与语言导航研究。
- Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令。
- R2R数据集旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
- Matterport3D是一个大规模RGB-D数据集,包含90个真实建筑的10,800张全景RGB-D图像。
- Matterport3D仿真器是基于该数据集构建的RL环境,支持多种具身视觉与语言任务。
- R2R数据集的导航指令平均长度为29个单词,描述穿越多个房间的轨迹。
- R2R数据集为VLN领域提供了首个黄金标准,包含真实家庭场景的毫米级复刻。
- R2R数据集的核心指标包括导航成功率、路径长度和导航误差。
- 数据收集过程中,工作人员通过交互式3D环境编写导航指令,确保指令与路径偏差小于3米。
- R2R数据集的指令平均长度明显长于视觉问答数据集,词汇量相对有限。
➡️