医学视觉问答中的幻觉基准
原文中文,约400字,阅读约需1分钟。发表于: 。最近大型语言和视觉模型在视觉问答(VQA)方面取得的成功,特别是在医学领域的应用(Med-VQA),表明实现有效的医疗视觉助手具有巨大潜力。然而,这些模型在临床环境中并没有经过广泛测试,我们在这里创建了一种医学图像的幻觉基准,并对最先进的模型进行了全面评估。该研究对当前模型的局限性进行了深入分析,并揭示了各种提示策略的有效性。
该论文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。HalluQA包含450个对抗性问题,覆盖多个领域,考虑了中国的历史文化和社会现象。实验发现18个模型的非幻觉率低于50%。研究还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑的幻觉类型。