医学视觉问答中的幻觉基准

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该论文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。HalluQA包含450个对抗性问题,覆盖多个领域,考虑了中国的历史文化和社会现象。实验发现18个模型的非幻觉率低于50%。研究还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑的幻觉类型。

🎯

关键要点

  • 论文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。
  • HalluQA包含450个对抗性问题,涵盖多个领域,考虑了中国的历史文化和社会现象。
  • 研究考虑了模仿性虚假和事实错误两种类型的幻觉,并基于GLM-130B和ChatGPT构建对抗样本。
  • 使用GPT-4设计了一种自动评估方法来判断模型输出是否存在幻觉。
  • 对24个大型语言模型进行了实验,其中18个模型的非幻觉率低于50%。
  • 研究分析了不同类型模型中主要类型的幻觉及其原因。
  • 讨论了不同类型模型应优先考虑的幻觉类型。
➡️

继续阅读