结构之法算法之道 ·

VLN领域的“ImageNet”打造之路：从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

本文介绍了Matterport3D数据集及其仿真器，推动视觉与语言导航研究。Room-to-Room（R2R）数据集基于真实建筑，包含21,567条导航指令，旨在解决视觉语言导航中的数据孤岛问题，提供统一的研究基准。

🎯

🔎

R2R数据集的推出有效解决了视觉语言导航领域中的数据孤岛问题。以往，各实验室使用自建的仿真环境和私有指令集，导致研究结果难以比较。R2R提供了统一的研究基准，使得不同研究之间的对比变得可行，推动了该领域的进一步发展。

Matterport3D数据集的设计充分考虑了真实环境的复杂性，包含多样化的建筑场景和高密度的RGB-D图像。这种真实世界的数据能够更好地保留视觉和语言的丰富性，为训练智能体提供了更具挑战性的环境，提升了其在实际应用中的表现潜力。

R2R数据集的核心指标包括导航成功率、路径长度和导航误差。这些指标不仅量化了智能体的表现，还为后续研究提供了明确的评估标准。研究者在使用这些指标时，应关注不同任务的特性，以便更好地理解智能体在复杂环境中的表现。

❓

Matterport3D数据集是一个大规模RGB-D数据集，包含90个真实建筑的10,800张全景RGB-D图像，提供全面的全景视图和精确的相机位姿标注。

R2R数据集旨在解决视觉语言导航中的数据孤岛问题，提供统一的研究基准，包含21,567条导航指令。

R2R数据集的导航指令平均长度为29个单词。

Matterport3D仿真器是基于Matterport3D数据集构建的RL环境，支持多种具身视觉与语言任务，提供可复现的VLN方法评估。

R2R数据集的核心指标包括导航成功率、路径长度和导航误差。

R2R数据集的导航指令通过工作人员在交互式3D环境中编写，确保指令与路径偏差小于3米。

🏷️