个性化视觉指令调优
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了多模态大型语言模型(MLLMs)在进行个性化对话时存在的"面盲"问题。通过提出个性化视觉指令调优(PVIT),我们开发了一种新的数据策划和训练框架,能够生成包含个性化对话的训练数据,从而显著提高MLLMs在识别目标个体和进行个性化对话方面的表现。
最近,多模态大型语言模型在图像感知和指令执行上表现出色。研究表明,预训练的视觉语言模型能有效连接视觉与语言。基于此,提出了 Muffin 框架,利用预训练模型提供视觉信号,并推出 UniMM-Chat 数据集,生成了 110万条多模态指令。实验结果显示,Muffin 在视觉语言任务中表现优异,超越现有模型。