AIxiv专栏促进学术交流,报道超过2000篇内容。马里兰大学研究团队提出AutoHallusion框架,自动生成视觉大模型的幻觉案例,以解决数据集不足的问题。实验结果显示,GPT-4V等模型在新基准数据集上的问答准确率最高为66%。该研究已发表于EMNLP 2024。
中国公司格灵深瞳通过多模态大模型在银行安防、城市管理、商业零售和体育教育等领域取得成功。他们的视觉大模型Unicom v2在多个数据集上表现优于OpenAI的CLIP和Meta的DINOv2。多模态大模型的优势在于解决复杂场景和长尾问题。格灵深瞳采用弱监督学习方法,通过特征聚类和软标签分配来扩大视觉大模型的数据规模。他们还在尝试使用基于RNN的序列建模方法RWKV替代ViT架构,以降低计算复杂度。格灵深瞳认为,多模态大模型的应用需要深耕行业和掌握行业场景。
完成下面两步后,将自动完成登录并继续当前操作。