小红花·文摘

本文介绍了Matterport3D数据集及其仿真器，推动视觉与语言导航研究。Room-to-Room（R2R）数据集基于真实建筑，包含21,567条导航指令，旨在解决视觉语言导航中的数据孤岛问题，提供统一的研究基准。