SemEval-2025任务3:Mu-SHROOM,多语言共享任务关于幻觉和相关可观察过量生成错误
📝
内容提要
本研究针对指令调优的大型语言模型输出中的幻觉和其他过量生成错误的检测问题,提出了Mu-SHROOM共享任务。研究显示,来自43个团队的2618份提交表明了学术界对幻觉检测的高度关注,同时还识别出与性能相关的关键因素,并强调了跨语言幻觉的差异性及标注者之间的高不一致性等当前挑战。
🏷️
标签
➡️