MMEvol:通过Evol-Instruct赋能多模态大语言模型
原文中文,约400字,阅读约需1分钟。发表于: 。本研究旨在解决现有多模态语言模型在指令数据的数量和质量上的瓶颈,提出了一种新颖的多模态指令数据演进框架MMEvol。该框架通过细粒度感知演进、认知推理演进和交互演进的结合,生成复杂多样的图像-文本指令数据集,从而显著提升了多模态大语言模型的性能,实验证明相比基线模型提高了3.1个百分点,并在9个任务上达到了当前最佳表现。
最近的多模态大型语言模型 (MLLMs) 在感知图像以及遵循开放性指令方面表现出令人印象深刻的能力。研究者提出了Muffin框架和UniMM-Chat数据集,Muffin在广泛的视觉语言任务中实现了最先进的性能。