多模型大语言模型中的灾难性遗忘研究
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究将多模态大型语言模型视为图像分类器,并引入EMT评估现有的MLLM在图像分类任务上的性能。研究发现,几乎所有评估的MLLM在标准图像分类任务上无法保持与视觉编码器相同的性能水平,并且随着fine-tuning的进行,MLLM开始产生幻觉,并导致了显著的泛化能力损失。因此,MLLM在标准图像分类任务上的性能仍有待提高。
🎯
关键要点
-
该研究将多模态大型语言模型(MLLM)视为图像分类器。
-
引入EMT评估现有的MLLM在图像分类任务上的性能。
-
几乎所有评估的MLLM在标准图像分类任务上无法保持与视觉编码器相同的性能水平。
-
初期fine-tuning可以提高在其他图像数据集上的性能。
-
随着fine-tuning的进行,MLLM开始产生幻觉,导致显著的泛化能力损失。
-
MLLM在标准图像分类任务上的性能仍有待提高。
➡️