本文介绍了Matterport3D数据集及其仿真器,推动视觉与语言导航研究。Room-to-Room(R2R)数据集基于真实建筑,包含21,567条导航指令,旨在解决视觉语言导航中的数据孤岛问题,提供统一的研究基准。
本研究提出了RoomTour3D数据集,通过网络房间导览视频生成多样化的导航指令,显著提升了视觉与语言导航(VLN)任务的性能。
本研究提出自我精炼数据飞轮(SRDF),通过指令生成器与导航器的协作,迭代生成高质量的导航指令和轨迹对,有效解决了高质量数据的挑战。实验结果显示,导航器在R2R测试集上的性能从70%提升至78%。
完成下面两步后,将自动完成登录并继续当前操作。