本研究探讨了大型语言模型中的幻觉及生成错误检测,使用自然语言推理微调ModernBERT模型。结果显示,模型信心分数与幻觉之间存在中等正相关,但检测重叠率较低,表明检测的复杂性。
本研究提出了β校准方法,解决生成问答系统中信心分数不准确的问题,显著提升了系统的决策支持能力。
完成下面两步后,将自动完成登录并继续当前操作。