为多模态大型语言模型自动生成视觉幻觉测试用例
内容提要
本文介绍了M-HalDetect数据集及其在幻觉检测中的应用,分析了大型语言模型(LLM)在视觉问题回答中的幻觉问题。研究表明,现有模型在负面代词上的准确率低于10%,并提出了多种方法和数据集以减少幻觉现象,提升模型的鲁棒性和可靠性。
关键要点
-
M-HalDetect是一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。
-
使用Fine-grained Direct Preference Optimization和拒绝抽样方法成功减少了幻觉率。
-
NOPE基准用于评估视觉语言模型中的对象幻觉问题,发现所有模型在负面代词上的准确率低于10%。
-
研究表明,词汇多样性和与场景相关的对象会增加对象幻觉的风险。
-
通过AutoDebug框架生成可转移的对抗攻击示例,研究LLMs的幻觉行为。
-
提出“CorrelationQA”评估指标,探讨多模态大型语言模型的偏见和鲁棒性问题。
-
VHTest工具生成包含8种视觉幻觉模式的实例数据集,发现现有多模态LLM在大部分实例中出现幻觉。
-
ANAH数据集对生成式问答中的幻觉进行了精细测量与注释,验证了其在细粒度幻觉注释方面的优势。
-
AUTOHALLUSION基准测试方法揭示了幻觉的常见失败模式和原因,成功诱导幻觉的比例高达97.7%。
-
使用RelD鲁棒性判别器检测大型语言模型中的幻觉问题,成功区分不同数据集中的幻觉问题。
-
提出的迭代自训练框架提高了幻觉注释器的准确性,并在HaluEval和HalluQA上获得了新结果。
延伸问答
M-HalDetect数据集的主要用途是什么?
M-HalDetect数据集用于训练和评估幻觉检测和预防模型。
如何减少大型语言模型中的幻觉现象?
使用Fine-grained Direct Preference Optimization和拒绝抽样方法可以成功减少幻觉率。
NOPE基准的作用是什么?
NOPE基准用于评估视觉语言模型中的对象幻觉问题,特别是负面代词的准确性。
研究发现哪些因素会增加对象幻觉的风险?
词汇多样性、广泛的问题类型和与场景相关的对象会增加对象幻觉的风险。
VHTest工具生成了什么样的数据集?
VHTest工具生成了包含8种视觉幻觉模式的实例数据集。
AUTOHALLUSION基准测试方法的主要发现是什么?
AUTOHALLUSION基准测试方法揭示了幻觉的常见失败模式和原因,成功诱导幻觉的比例高达97.7%。