量子位 ·

刚刚，李飞飞亲自下场定义世界模型

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

李飞飞探讨了“世界模型”的定义与功能，强调其在人工智能中的重要性。她将世界模型分为渲染、模拟和规划三大功能，指出模拟器是连接渲染与规划的关键。渲染器关注视觉效果，规划器决定行动。三者的融合将推动机器智能与物理世界的关系发展，未来的挑战在于数据获取与精度的平衡。

🎯

🔎

李飞飞指出，‘世界模型’这一术语在人工智能领域被广泛使用，但其定义却模糊不清。不同的模型，如视频生成模型和物理引擎，常常被混淆为世界模型。这种混乱不仅影响了研究的准确性，也可能导致技术应用中的误解。

李飞飞强调，渲染、模拟和规划三者之间的关系至关重要。模拟器作为连接渲染和规划的桥梁，能够提供更为准确的物理和动态一致性。这种相互融合的趋势，预示着未来人工智能在理解和互动方面的潜力。

尽管渲染器拥有丰富的数据资源，但模拟器和规划器在3D资产和机器人演示数据方面却面临严重不足。这种数据不平衡可能限制了模型的训练效果和实际应用，如何解决这一问题将是未来研究的关键。

❓

李飞飞将世界模型的功能分为渲染、模拟和规划三大类。

渲染器关注视觉效果，输出观察结果，而模拟器连接渲染和规划，强调几何、物理和动态一致性。

主要挑战在于数据获取与精度的平衡，尤其是模拟器和规划器缺乏足够的3D资产。

模拟器是连接渲染和规划的关键，输出可计算、可交互的状态，强调物理和几何一致性。

李飞飞乐观地认为，三条独立的研究线索正在合并，重塑机器智能与物理世界的关系。

三类功能的知识在很大程度上是相同的，能够共同推动机器智能的理解和行动。

🏷️