小红花·文摘

本研究提出了一种多分支架构用于视觉-语言导航，通过多样化视觉输入提升模型的泛化性能。实验结果显示，该方法在多个基准测试中表现优异，显著超越现有最佳结果。此外，针对无人机导航的挑战，开发了OpenUAV平台和UAV-Need-Help基准，验证了新方法的有效性，但仍需缩小与人类操作员的差距。