小红花·文摘

本文提出了MedHallu基准，用于检测大语言模型在医疗问答中的幻觉问题。基准包含来自PubMedQA的10,000对问答，研究表明现有模型在幻觉检测上存在不足，引入领域知识和“无确定答案”选项可显著提高检测精度。