本研究提出了一种多分支架构用于视觉-语言导航,通过多样化视觉输入提升模型的泛化性能。实验结果显示,该方法在多个基准测试中表现优异,显著超越现有最佳结果。此外,针对无人机导航的挑战,开发了OpenUAV平台和UAV-Need-Help基准,验证了新方法的有效性,但仍需缩小与人类操作员的差距。
本文介绍了新型模块和方法,如 Text2Pos 和 Text2Loc,旨在通过自然语言描述实现物体定位,提升无人机导航和3D理解能力。这些方法在定位准确性和效率上优于现有技术,尤其在 KITTI360Pose 数据集上表现突出。
该论文提出了一种将多目标强化学习与卷积自编码器相结合的方法,以提高城市紧急搜索和救援中的无人机导航。该方法利用城市布局的图像数据,无人机可以自主进行导航决策,优化路径,并抵消传统传感器无法解决的风力影响。测试表明,该方法可以增强复杂城市环境下无人机的搜索和救援任务。
本文介绍了一种从高速图像序列中估计极端场景运动的方法,适用于增强和虚拟现实、无人机导航和自主机器人等应用。该方法在低光或高动态范围等挑战性条件下表现出色。
完成下面两步后,将自动完成登录并继续当前操作。