BriefGPT - AI 论文速递 ·

人类感知视觉 - 语言导航：通过动态人类交互缩小模拟与现实之间的鸿沟

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本研究通过使用900个未标记的3D建筑自动创建VLN数据集，解决了数据稀缺性问题，显著提高了VLN模型的泛化能力。实验结果表明，该方法在REVERIE和SOON数据集上分别提高了7.1%和8.1%的SPL性能。此外，研究探讨了视觉-语言导航技术在物理机器人中的应用及提升未知环境表现的方法。

🎯

❓

通过使用900个未标记的3D建筑自动创建VLN数据集，并对数据集进行微调，显著提高了VLN模型的泛化能力。

该方法在REVERIE和SOON数据集上分别提高了7.1%和8.1%的SPL性能。

研究探讨了使用子目标模型和领域随机化等方法，以提升物理机器人在未知环境中的表现。

在有占用图和导航图的情况下，模拟到真实的转移成功率可达46.8%。

长期愿景是提高代理者和环境的感知、理解和交互能力，以实现具体导航的视觉-语言导航。

通过模拟传递技术，赋予单目机器人全景遍历感知和全景语义理解，从而提高导航性能。

🏷️