多模态事实检查与视觉语言模型:基于嵌入策略的探测分类器解决方案
📝
内容提要
本研究解决了视觉语言模型(VLMs)在多模态内容事实检查中的有效性问题。我们提出了一种探测分类器解决方案,通过从选定VLM的最后隐藏层提取嵌入,并将其输入神经探测分类器,旨在显著提高误信息检测的准确性。实验结果表明,融合文本和图像编码器的单独嵌入比使用VLM的嵌入效果更佳,且所提神经分类器在利用嵌入方面显著优于KNN和SVM基准方法。
➡️