小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了大型语言模型中的幻觉及生成错误检测，使用自然语言推理微调ModernBERT模型。结果显示，模型信心分数与幻觉之间存在中等正相关，但检测重叠率较低，表明检测的复杂性。

Application of HausaNLP in SemEval-2025 Task 3: Towards Detailed Model-Aware Hallucination Detection

BriefGPT - AI 论文速递 ·

本研究提出了β校准方法，解决生成问答系统中信心分数不准确的问题，显著提升了系统的决策支持能力。

β Calibration of Confidence Scores in Generative Question Answering Systems

BriefGPT - AI 论文速递 ·