量子位 ·

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球领先的视觉大模型DINO-X，未来希望将世界模型作为物理世界AI的核心基础设施，助力机器人自主学习和决策。

🎯

🔎

隐空间世界模型的开发面临更高的技术挑战，要求AI在抽象层面理解因果关系和物理规律。这种模型不仅关注未来状态的预测，还强调对物体的理解能力，能够更有效地学习物理规律。成功实现这一目标，将为机器人自主学习和决策提供强大的基础。

视启未来强调物体理解能力在隐空间世界模型中的核心地位。模型必须能够识别场景中的独立物体及其关系，才能有效学习物理规律。通过引入物体理解，模型能够更高效地处理数据，提升学习效率，避免被表面特征干扰。

EgoTwin作为视启未来的首个产品，旨在将人类操作数据转化为机器人可用的训练数据，显著提升数据采集效率。这一创新不仅解决了行业痛点，还为世界模型提供了Action-Aligned的训练基础，推动机器人技术的进一步发展。

❓

视启未来团队的主要目标是开发隐空间世界模型，推动AI从“看见”向“预见”转变。

隐空间世界模型要求AI在更抽象的表征空间中学习因果规律，面临更高的技术挑战。

DINO-X模型强调物体理解能力，以提高学习效率和准确性，是全球领先的视觉大模型。

张磊认为，世界模型将成为物理世界AI的核心基础设施，推动机器人技术的发展。

EgoTwin产品将人类操作数据转化为机器人可用的训练数据，提升数据采集效率，是行业主流方案的3.75倍。

视启未来团队核心成员来自清华大学、微软、腾讯等顶尖高校与科技企业，约50%具有清华背景。

🏷️