Lumen: 开放大型多模态模型的多样视觉能力
原文中文,约400字,阅读约需1分钟。发表于: 。大型多模态模型(LMM)是计算机视觉领域的热门研究课题,近期的趋势是进一步拓展和增强 LMM 的感知能力。我们提出了一种名为 Lumen 的新型 LMM 架构,将 LMM 的感知能力学习分解为任务无关和任务特定阶段,在 COCO 检测基准上显著超越现有的基于 LMM 的方法,并展现了对其他视觉任务的无缝可扩展性。
最近的多模态大型语言模型在感知图像和遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。