小红花·文摘

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局

量子位 ·

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

机器之心 ·

中国公司格灵深瞳通过多模态大模型在银行安防、城市管理、商业零售和体育教育等领域取得成功。他们的视觉大模型Unicom v2在多个数据集上表现优于OpenAI的CLIP和Meta的DINOv2。多模态大模型的优势在于解决复杂场景和长尾问题。格灵深瞳采用弱监督学习方法，通过特征聚类和软标签分配来扩大视觉大模型的数据规模。他们还在尝试使用基于RNN的序列建模方法RWKV替代ViT架构，以降低计算复杂度。格灵深瞳认为，多模态大模型的应用需要深耕行业和掌握行业场景。

视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law

量子位 ·