量子位 ·

视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

中国公司格灵深瞳通过多模态大模型在银行安防、城市管理、商业零售和体育教育等领域取得成功。他们的视觉大模型Unicom v2在多个数据集上表现优于OpenAI的CLIP和Meta的DINOv2。多模态大模型的优势在于解决复杂场景和长尾问题。格灵深瞳采用弱监督学习方法，通过特征聚类和软标签分配来扩大视觉大模型的数据规模。他们还在尝试使用基于RNN的序列建模方法RWKV替代ViT架构，以降低计算复杂度。格灵深瞳认为，多模态大模型的应用需要深耕行业和掌握行业场景。

🎯

关键要点

格灵深瞳在银行安防、城市管理、商业零售和体育教育等领域取得成功。
其视觉大模型Unicom v2在多个数据集上表现优于OpenAI的CLIP和Meta的DINOv2。
多模态大模型的优势在于解决复杂场景和长尾问题。
格灵深瞳采用弱监督学习方法，通过特征聚类和软标签分配来扩大数据规模。
他们尝试使用基于RNN的RWKV序列建模方法替代ViT架构，以降低计算复杂度。
多模态大模型的应用需要深耕行业和掌握行业场景。
格灵深瞳的自研视觉大模型Unicom系列推动了视觉AI的转变。
多模态大模型在传统视觉AI中带来了新的应用可能性。
弱监督学习方法为无标签数据注入了丰富的语义信息。
RWKV-CLIP模型降低了推理时的计算复杂度，有望在更多设备上应用。
视觉AI公司需深度融合行业场景，才能有效应用多模态技术。
格灵深瞳在智慧金融和城市治理等领域积累了丰富的行业经验和知识。

❓

延伸问答

格灵深瞳的视觉大模型Unicom v2有哪些优势？

Unicom v2在多个数据集上表现优于OpenAI的CLIP和Meta的DINOv2，具备强大的通用视觉理解能力。

格灵深瞳如何解决多模态大模型的计算复杂度问题？

他们尝试使用基于RNN的RWKV序列建模方法替代ViT架构，以降低推理时的计算复杂度。

格灵深瞳在行业应用方面取得了哪些成功？

他们在银行安防、城市管理、商业零售和体育教育等领域成功落地了多个项目。

弱监督学习在格灵深瞳的视觉大模型中起到什么作用？

弱监督学习通过特征聚类和软标签分配，扩大了视觉大模型的数据规模，注入了丰富的语义信息。

多模态大模型如何改变传统视觉AI的应用？

多模态大模型通过结合视觉和语言模型，提升了对复杂场景的理解能力，拓宽了应用边界。

格灵深瞳在多模态大模型领域的未来发展方向是什么？

他们正在探索超越Transformer的下一代架构，以进一步提升多模态AI的能力和应用范围。

🏷️

继续阅读

开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
姚顺雨首度公开回应：为什么离开OpenAI加入腾讯？
2026腾讯云AI产业大会在北京举行，姚顺雨首次公开露面，分享了他对AI下半场的看法。他强调AI的核心在于寻找问题，而非技术本身，并指出腾讯的产品环境和组...
eBay拒绝游戏驿站560亿美元收购提案；OpenAI收购Tomoro并成立新实体；腾讯音乐完成收购喜马拉雅
OpenAI收购咨询公司Tomoro，成立新合资企业以推动人工智能应用。优步提高对Delivery Hero的收购报价。阳狮集团以22亿美元收购LiveR...