弥合视觉差距:用知识适应的标题微调多模态模型
发表于: 。本文研究在用长篇详细图像描述训练视觉语言模型(VLMs)时,如何平衡描述性与幻觉内容的风险。我们提出了知识适应(KnowAda)微调方法,它利用模型现有知识自动调整训练数据,有效降低幻觉同时保持高描述性,实验结果表明,KnowAda在多个小规模VLMs及密集描述数据集上表现优于各种基准。
本文研究在用长篇详细图像描述训练视觉语言模型(VLMs)时,如何平衡描述性与幻觉内容的风险。我们提出了知识适应(KnowAda)微调方法,它利用模型现有知识自动调整训练数据,有效降低幻觉同时保持高描述性,实验结果表明,KnowAda在多个小规模VLMs及密集描述数据集上表现优于各种基准。