本文提出了MedHallu基准,用于检测大语言模型在医疗问答中的幻觉问题。基准包含来自PubMedQA的10,000对问答,研究表明现有模型在幻觉检测上存在不足,引入领域知识和“无确定答案”选项可显著提高检测精度。
完成下面两步后,将自动完成登录并继续当前操作。