本研究提出了一种多分支架构用于视觉-语言导航,通过多样化视觉输入提升模型的泛化性能。实验结果显示,该方法在多个基准测试中表现优异,显著超越现有最佳结果。此外,针对无人机导航的挑战,开发了OpenUAV平台和UAV-Need-Help基准,验证了新方法的有效性,但仍需缩小与人类操作员的差距。
完成下面两步后,将自动完成登录并继续当前操作。