Uni-NaVid: A Video-Based Vision-Language-Action Model for Unifying Embodied Navigation Tasks
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的视频基础视觉-语言-动作模型Uni-NaVid,旨在克服现有导航模型的局限性,实现多种导航任务的无缝执行。实验结果表明,Uni-NaVid在多个基准测试中表现优异,具备良好的通用性。
🎯
关键要点
- 本研究提出了一种新的视频基础视觉-语言-动作模型Uni-NaVid。
- Uni-NaVid旨在克服现有导航模型的局限性,实现多种导航任务的无缝执行。
- 实验结果表明,Uni-NaVid在多个基准测试中表现优异。
- Uni-NaVid具备良好的通用性,能够在未见环境中执行混合长时间任务。
- 研究表明,Uni-NaVid在真实环境中的实验验证了其出色的通用能力。
➡️