多模态大型语言模型的统一幻觉检测
原文中文,约300字,阅读约需1分钟。发表于: 。多模态大语言模型(MLLMs)在全方位任务中取得了显著进展,但幻觉问题成为其关键问题之一。我们的研究扩展了对幻觉检测的调查范围,并提出了一个新颖的元评估基准(MHaluBench),以促进幻觉检测方法的发展。我们还推出了一个新颖的统一多模态幻觉检测框架(UNIHD),利用一套辅助工具来强化幻觉检测的有效性,并提供了针对不同幻觉类别的工具应用战略见解。
该文章介绍了细粒度幻视建模和缓解的方法,通过分类和度量幻视的倾向。作者提供了两个幻视方向的理解,并将其细分为内在和外在,分为三个严重程度。此外,作者还对幻视进行了六种类型的分类,并提供了包含75,000个样本和人工注释的数据集。最后,作者提出了Hallucination Vulnerability Index(HVI),该指数可以量化和评估语言模型在产生幻视方面的脆弱性,并作为人工智能政策制定的标准工具。