RoomTour3D: Geometric-Based Instruction Tuning for Immersive Navigation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了RoomTour3D数据集,通过网络房间导览视频生成多样化的导航指令,显著提升了视觉与语言导航(VLN)任务的性能。
🎯
关键要点
- 本研究提出了RoomTour3D数据集,旨在解决视觉与语言导航(VLN)中训练数据的有限多样性和规模问题。
- RoomTour3D数据集来源于网络房间导览视频,利用在线视频的规模和多样性生成开放式人类行走轨迹和可导航指令。
- 研究表明,RoomTour3D在多项VLN任务中显著提升了性能。
- RoomTour3D为可训练的零-shot VLN代理的发展提供了新的契机与挑战。
🏷️
标签
➡️