NavFoM——打造VLN基础模型：通过安装在机器人上的摄像头和人类下达的指令，预测移动轨迹(可跨任务、跨本体)

💡 原文中文，约15400字，阅读约需37分钟。

📝

内容提要

本文介绍了NavFoM，一个跨任务和跨形态的具身导航基础模型。该模型通过处理自我视角视频和语言指令来预测导航轨迹，经过八百万个样本的训练，采用时序-视角指示符token和预算感知时序采样策略，以提升模型的泛化能力和实用性。研究者强调开源和分享对技术影响力的重要性。

🎯

关键要点

NavFoM是一个跨任务和跨形态的具身导航基础模型，经过八百万个样本的训练。
该模型通过处理自我视角视频和语言指令来预测导航轨迹，提升了模型的泛化能力和实用性。
引入了时序-视角指示符token（TVI token）和预算感知时序采样策略（BATS），以优化模型性能。
研究者强调开源和分享对技术影响力的重要性，认为分享是推动技术发展的关键。
NavFoM的设计灵感来源于人类的视觉感知能力，旨在实现通用型导航任务。

❓

延伸问答

NavFoM模型的主要功能是什么？

NavFoM模型通过处理自我视角视频和语言指令来预测导航轨迹，具备跨任务和跨形态的能力。

NavFoM是如何提升模型的泛化能力的？

NavFoM通过引入时序-视角指示符token和预算感知时序采样策略来优化模型性能，从而提升泛化能力。

NavFoM的训练数据量有多大？

NavFoM经过八百万个样本的训练，涵盖多种形态与任务的导航样本。

NavFoM的设计灵感来源于什么？

NavFoM的设计灵感来源于人类的视觉感知能力，旨在实现通用型导航任务。

开源和分享在NavFoM的研究中有什么重要性？

研究者强调开源和分享对技术影响力的重要性，认为分享是推动技术发展的关键。

NavFoM如何处理不同摄像头配置下的导航任务？

NavFoM通过动态调整时序-视角指示符token，实现不同摄像头配置间的协同调优。

🏷️

继续阅读

通过玩“战舰”教人工智能代理提出更好的问题
麻省理工学院的研究显示，小型人工智能模型在经典游戏“战舰”中表现优于大型模型，成本仅为其1%。研究指出，通过改进模型的提问能力和使用蒙特卡罗推理策略，可以...
介绍Gemma 4 12B：一个统一的无编码多模态模型
Gemma 4 12B是最新的多模态智能模型，专为笔记本电脑设计，具备强大的推理能力和音频输入。它采用无编码架构，减少延迟和内存使用，支持在16GB内存的...
NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI
NVIDIA推出新一代物理AI代理技能，支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3，研究人员能够加速数据生成、模拟和政策训练，...
Dreame L20 Ultra机器人吸尘器以280美元的价格无与伦比
Dreame L20 Ultra是一款性价比高的机器人吸尘器，售价279美元。它具备自清洁功能、AI避障和强大的吸力，适合清洁地毯和硬木地板。配备的基站可...
从看懂世界到做对动作，卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层
卧安机器人发布了OneModel 1.7 FrontoStria-RL，该模型通过隐式传导机制将世界模型与动作执行连接，提升了家庭机器人在真实环境中的操作...
[显示BUG没重置] Codex已重置本周使用限额原因似乎与部分模型出现的故障有关
本周，OpenAI的Codex、ChatGPT和API出现故障，导致用户使用受限。Codex团队已重置所有付费用户的使用限额，并延长7天。故障原因与部分模...