机器之心 ·

LeCun团队新作：在世界模型中导航

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

LeCun团队的导航世界模型NWM能够在已知和未知环境中生成视频，具备出色的导航能力。尽管在单图生成视频方面略逊于DeepMind的Genie-2，但在场景理解和路径规划上表现优异。NWM通过条件扩散Transformer实现高效导航，展现了先进的视觉导航性能。

🎯

关键要点

LeCun团队的导航世界模型NWM能够在已知和未知环境中生成视频，具备出色的导航能力。
NWM在单图生成视频方面略逊于DeepMind的Genie-2，但在场景理解和路径规划上表现优异。
NWM通过条件扩散Transformer实现高效导航，展现了先进的视觉导航性能。
NWM能够基于单张输入帧和给定的输入动作合成视频，具有相当不错的场景理解表现。
NWM不仅适用于已知环境，也能在未知环境中自回归式地预测后续帧。
NWM与外部导航策略NoMaD结合使用，能够生成轨迹视频并选出得分最高的轨迹。
NWM提出了一种全新的条件扩散Transformer（CDiT），能高效扩展到1B参数，计算需求小。
NWM在Ego4D等无动作和无奖励的视频数据上训练，能在未见过的环境中取得更好的视频预测性能。
NWM的数学描述包括接收当前世界状态和导航操作，根据智能体的视角生成下一个世界状态。
NWM使用条件扩散Transformer架构，通过高效的CDiT块实现自回归建模。
NWM能够模拟导航轨迹并选择能够达到目标的轨迹，适用于未知环境的长期规划。
实验结果显示NWM在多个数据集上表现优异，评估指标包括绝对轨迹误差和相对姿态误差。
NWM在已知环境中进行的消融实验表明，模型大小和上下文数量对预测性能有显著影响。
NWM的生成质量评估显示其视频质量优于DIAMOND，能够有效执行目标导向的导航。
NWM在规划时可以指定约束条件，能够在满足约束的同时进行有效规划。
NWM的泛化能力在未标注数据上进行训练后显著提升，能够在新环境中做出预测。

🔎

延伸解读

NWM的导航能力与应用前景

LeCun团队的NWM在已知和未知环境中的导航能力展现了其广泛的应用潜力。尤其是在未知环境中，NWM能够自回归式地预测后续帧，这为机器人导航、自动驾驶等领域提供了新的解决方案。随着技术的进步，未来可能会看到NWM在复杂场景中的实际应用。

与DeepMind Genie-2的比较

尽管NWM在单图生成视频方面略逊于DeepMind的Genie-2，但在场景理解和路径规划上表现优异。这表明NWM在特定任务中可能更具优势，尤其是在需要复杂决策和环境适应的情况下。用户在选择模型时应考虑具体应用需求。

模型训练与泛化能力

NWM通过在无动作和无奖励的视频数据上进行训练，显著提升了其在未知环境中的泛化能力。这一特性使得NWM在面对新环境时能够更好地进行预测，减少了对大量标注数据的依赖，具有重要的实用价值。

❓

延伸问答

NWM模型的主要功能是什么？

NWM模型能够在已知和未知环境中生成视频，并具备出色的导航能力。

NWM与DeepMind的Genie-2相比有什么不同？

NWM在单图生成视频方面略逊于Genie-2，但在场景理解和路径规划上表现优异。

NWM是如何实现高效导航的？

NWM通过条件扩散Transformer（CDiT）实现高效导航，展现了先进的视觉导航性能。

NWM在未知环境中的表现如何？

NWM能够在未知环境中自回归式地预测后续帧，表现出良好的导航能力。

NWM的训练数据来源是什么？

NWM在Ego4D等无动作和无奖励的视频数据上进行训练，以提高视频预测性能。

NWM如何进行导航轨迹的规划？

NWM可以模拟导航轨迹并选择能够达到目标的轨迹，适用于未知环境的长期规划。

🏷️