评估用于大型视觉语言模型的幻觉基准的质量
原文中文,约300字,阅读约需1分钟。发表于: 。大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的 LVLMs 幻觉基准(HQH)。研究在多个代表性 LVLMs 模型上进行了广泛评估,揭示了现有模型中存在的幻觉问题。
Med-HallMark是一个用于医学多模态领域中幻觉检测和评估的基准。作者提出了MediHall Score评价指标和MediHallDetector,一种新型的医学LVLM用于准确检测幻觉。实验结果表明,MediHall Score相对于传统指标提供了对幻觉影响更丰富的理解,并展示了MediHallDetector的改进性能。作者希望这项工作能提高LVLMs在医学应用中的可靠性。