本研究针对指令调优的大型语言模型输出中的幻觉和其他过量生成错误的检测问题,提出了Mu-SHROOM共享任务。研究显示,来自43个团队的2618份提交表明了学术界对幻觉检测的高度关注,同时还识别出与性能相关的关键因素,并强调了跨语言幻觉的差异性及标注者之间的高不一致性等当前挑战。
该论文介绍了SHROOM共享任务,旨在检测自然语言生成系统的过度生成问题。共享任务使用了新的数据集,包含4000个模型输出,涵盖了机器翻译、释义生成和定义建模等任务。共有42个团队参与,其中27个团队撰写了系统描述论文。最高得分的系统表现与随机处理一致。
该论文介绍了SHROOM共享任务,旨在检测自然语言生成系统输出中的过度生成问题。共享任务使用了一个新的数据集,包含4000个模型输出,涵盖了机器翻译、释义生成和定义建模等自然语言处理任务。共有42个团队参与,其中27个团队撰写了系统描述论文。研究发现,许多参与者依赖少数模型,并使用合成数据或零-shot提示策略进行微调。大多数团队的表现超过基准系统,但得分最高的系统与随机处理一致。
完成下面两步后,将自动完成登录并继续当前操作。