Uni-NaVid: A Video-Based Vision-Language-Action Model for Unifying Embodied Navigation Tasks
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的视频基础视觉-语言-动作模型Uni-NaVid,旨在克服现有导航模型的局限性,实现多种导航任务的无缝执行。实验结果表明,Uni-NaVid在多个基准测试中表现优异,具备良好的通用性。
🎯
关键要点
-
本研究提出了一种新的视频基础视觉-语言-动作模型Uni-NaVid。
-
Uni-NaVid旨在克服现有导航模型的局限性,实现多种导航任务的无缝执行。
-
实验结果表明,Uni-NaVid在多个基准测试中表现优异。
-
Uni-NaVid具备良好的通用性,能够在未见环境中执行混合长时间任务。
-
研究表明,Uni-NaVid在真实环境中的实验验证了其出色的通用能力。
🏷️