量子位 ·

大模型的进化方向：Words to Worlds | 对话商汤林达华

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

商汤科技的SenseNova-SI模型在空间智能领域超越了李飞飞团队的Cambrian-S，标志着AI技术的转变。林达华指出，未来AI应从语言模型转向多模态理解，以更好地理解物理世界。商汤通过原生多模态架构NEO，实现了数据效率提升和空间智能的突破，推动了AI的实际应用。

🎯

🔎

林达华强调，未来的AI必须具备多模态理解能力，才能真正理解物理世界。当前的语言模型在处理复杂的三维空间关系时存在明显局限，无法与人类的感知能力相提并论。这一转变不仅是技术上的进步，也是对AI应用场景的重新定义。

尽管SenseNova-SI在技术上取得了突破，但林达华指出，任何技术的成功都必须考虑其工业应用价值。高昂的使用成本和长时间的推理过程是当前AI技术普及的主要障碍。商汤科技正在通过算法蒸馏等方法，努力降低这些成本，以实现更广泛的商业应用。

林达华提到，AI行业正经历从依赖参数规模到回归科研本质的转变。随着传统大语言模型的红利逐渐消退，研究者们需要关注更基础的科学问题，探索原生多模态架构等新方向。这一思路为年轻研究者提供了新的机遇，鼓励他们在更广泛的领域中寻找创新。

❓

SenseNova-SI模型在空间智能领域超越了Cambrian-S，数据效率提升了10倍，达到了SOTA水平。

林达华认为未来AI应从语言模型转向多模态理解，以更好地理解物理世界。

NEO架构允许视觉和语言信号同时处理，采用混合注意力机制，提升了模型的理解能力。

当前多模态大模型无法真正理解三维空间关系，常常出现错误的推理。

商汤通过算法蒸馏技术显著提升了视频生成的效率，降低了推理时间和成本。

林达华建议年轻研究者关注更广泛的AI领域，而不仅仅是大语言模型。

🏷️