本文提出了医疗幻觉检测基准MedHallu,包含1万对问答。研究表明,现有模型在幻觉检测方面表现不足,引入领域知识和“无确定答案”选项可显著提升检测精度。
提出了医疗幻觉检测基准MedHallu,包含1万对问答。
研究表明现有模型在幻觉检测方面表现不足。
引入领域知识和“无确定答案”选项可显著提升检测精度。
完成下面两步后,将自动完成登录并继续当前操作。