多模型大语言模型中的灾难性遗忘研究

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究将多模态大型语言模型视为图像分类器,并引入EMT评估现有的MLLM在图像分类任务上的性能。研究发现,几乎所有评估的MLLM在标准图像分类任务上无法保持与视觉编码器相同的性能水平,并且随着fine-tuning的进行,MLLM开始产生幻觉,并导致了显著的泛化能力损失。因此,MLLM在标准图像分类任务上的性能仍有待提高。

🎯

关键要点

  • 该研究将多模态大型语言模型(MLLM)视为图像分类器。

  • 引入EMT评估现有的MLLM在图像分类任务上的性能。

  • 几乎所有评估的MLLM在标准图像分类任务上无法保持与视觉编码器相同的性能水平。

  • 初期fine-tuning可以提高在其他图像数据集上的性能。

  • 随着fine-tuning的进行,MLLM开始产生幻觉,导致显著的泛化能力损失。

  • MLLM在标准图像分类任务上的性能仍有待提高。

➡️

继续阅读