BriefGPT - AI 论文速递 ·

CityNav: 具备地理信息的语言目标空中导航数据集

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文介绍了AerialVLN任务，旨在提升无人机在室外环境中的导航能力。研究通过未标记的3D建筑自动创建VLN数据集，并利用预训练语言模型解决数据稀缺问题，显著提高了模型的泛化能力。实验结果表明，该方法在多个数据集上表现优异，突显了视觉与语言导航领域的挑战与机遇。

🎯

AerialVLN 是一项基于无人机的室外导航任务，使用逼真的城市景观照片进行连续导航。
研究通过使用 900 个未标记的 3D 建筑自动创建 VLN 数据集，解决了数据稀缺性问题。
预训练的语言模型微调显著提高了 VLN 模型的泛化能力，实验结果在 REVERIE 和 SOON 数据集上分别提高了 7.1% 和 8.1% 的 SPL 性能。
数据扩充方法利用 Matterport3D 数据集中的元数据信息，生成新的导航指令，使未见过的环境中的性能提高了 8%。
研究综述了视觉与语言导航领域的现有研究，强调了当前 VLN 的局限性和未来工作的机遇。
未来研究需关注在不同地形环境中的规模和多样性增长，以改善室外导航的表现。

❓

AerialVLN任务旨在提升无人机在室外环境中的导航能力。

通过使用900个未标记的3D建筑自动创建VLN数据集，并微调预训练的语言模型来解决数据稀缺性问题。

实验结果表明，该方法在REVERIE和SOON数据集上分别提高了7.1%和8.1%的SPL性能。

数据扩充方法利用Matterport3D数据集中的元数据信息生成新的导航指令，从而提高未见过环境中的性能。

未来研究需关注在不同地形环境中的规模和多样性增长，以改善室外导航的表现。

AerialVLN任务的挑战在于与人类表现之间仍存在显著差距，表明该任务具有挑战性。

🏷️