NavAgent: Multi-Scale Urban Street View Fusion for UAV Embodied Vision-and-Language Navigation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出NavAgent模型,旨在解决视觉与语言导航(VLN)在户外城市场景中的挑战。该模型通过动态场景拓扑图与图卷积网络整合多尺度环境信息,显著提升无人机在复杂城市环境中的导航能力。

🎯

关键要点

  • 本研究提出NavAgent模型,旨在解决视觉与语言导航(VLN)在户外城市场景中的挑战。

  • NavAgent模型整合了多尺度环境信息,以实现更有效的导航任务。

  • 该模型通过动态增长的场景拓扑图与图卷积网络进行全局环境数据的编码。

  • NavAgent显著提高了无人机在复杂城市环境中的导航能力。

➡️

继续阅读