SemEval-2024 Shared Task 6: SHROOM,一个关于幻觉和相关可观察溢出错误的共享任务
原文中文,约500字,阅读约需2分钟。发表于: 。该论文提出了一个名为 SHROOM 的共享任务的结果,该任务侧重于检测错谬流畅的自然语言生成(NLG)系统的输出,这种过度生成的情况严重威胁到许多 NLG 应用,其中正确性通常至关重要。共享任务采用了一个新构建的数据集,包含由 5 个注释员标记的 4000 个模型输出,覆盖了机器翻译、释义生成和定义建模的 3 个自然语言处理任务,共有 58 个不同用户组成的 42...
该论文介绍了SHROOM共享任务,旨在检测自然语言生成系统输出中的过度生成问题。共享任务使用了一个新的数据集,包含4000个模型输出,涵盖了机器翻译、释义生成和定义建模等自然语言处理任务。共有42个团队参与,其中27个团队撰写了系统描述论文。研究发现,许多参与者依赖少数模型,并使用合成数据或零-shot提示策略进行微调。大多数团队的表现超过基准系统,但得分最高的系统与随机处理一致。