视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling Law
原文约4100字,阅读约需10分钟。发表于: 。从“A股AI视觉第一股“到”多模态落地先行者”
中国公司格灵深瞳通过多模态大模型在银行安防、城市管理、商业零售和体育教育等领域取得成功。他们的视觉大模型Unicom v2在多个数据集上表现优于OpenAI的CLIP和Meta的DINOv2。多模态大模型的优势在于解决复杂场景和长尾问题。格灵深瞳采用弱监督学习方法,通过特征聚类和软标签分配来扩大视觉大模型的数据规模。他们还在尝试使用基于RNN的序列建模方法RWKV替代ViT架构,以降低计算复杂度。格灵深瞳认为,多模态大模型的应用需要深耕行业和掌握行业场景。