量子位 ·

Ilya刚预言完，世界首个原生多模态架构NEO就来了：视觉和语言彻底被焊死

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

中国团队推出了原生多模态架构NEO，突破了传统模型的局限。NEO仅用十分之一的数据，在多项评测中超越现有顶级模型，展现出高效的视觉与语言融合能力，推动多模态AI的发展。

🎯

🔎

NEO架构的推出标志着多模态AI领域的一次重大突破。与传统模型的模块化设计不同，NEO通过原生架构实现了视觉与语言的深度融合。这种创新不仅提升了模型的效率和能力，还为未来的多模态AI发展指明了方向，强调了架构创新的重要性。

NEO在训练过程中仅使用了传统模型十分之一的数据，却能在多项评测中超越现有顶级模型。这一数据效率的提升，意味着多模态AI的应用将更加广泛，尤其是在资源受限的终端设备上，降低了技术门槛，推动了AI的普及化。

商汤科技已开源基于NEO架构的模型，这一举措将推动开源社区向更高效的原生架构迁移。通过共享技术，开发者能够更容易地构建和部署多模态AI应用，促进整个行业的创新与发展，形成新的技术标准。

❓

NEO的主要创新点包括原生图块嵌入、原生三维旋转位置编码和原生多头注意力三大核心技术。

NEO仅用十分之一的数据就能在多项评测中超越传统模型，展现出更高的效率和融合能力。

NEO通过原生架构设计，消除了复杂的训练流程，直接实现视觉与语言的深度融合，降低了训练成本。

NEO为多模态AI的发展指明了新路径，强调架构创新的重要性，推动开源社区向原生架构迁移。

NEO在多项关键基准测试中取得高分，展现出优于其他顶级模型的综合性能，尤其在中小参数规模下表现突出。

NEO的开源将推动开源社区向更高效的原生架构迁移，加速新一代多模态技术的标准化进程。

🏷️