小红花·文摘

本研究针对指令调优的大型语言模型输出中的幻觉和其他过量生成错误的检测问题，提出了Mu-SHROOM共享任务。研究显示，来自43个团队的2618份提交表明了学术界对幻觉检测的高度关注，同时还识别出与性能相关的关键因素，并强调了跨语言幻觉的差异性及标注者之间的高不一致性等当前挑战。

SemEval-2025任务3：Mu-SHROOM，多语言共享任务关于幻觉和相关可观察过量生成错误

BriefGPT - AI 论文速递 ·

该论文介绍了SHROOM共享任务，旨在检测自然语言生成系统中的错误输出。研究使用了4000个标记数据，涵盖机器翻译等任务，参与团队达42个。提出了新的幻觉检测框架，准确度为0.78，计算效率高。此外，研究扩展了幻觉检测方法，推出了MHaluBench基准和UNIHD框架，以改善多模态模型的幻觉问题。

AILS-NTUA 参加 SemEval-2024 任务 6: 高效模型调优用于幻觉检测和分析

BriefGPT - AI 论文速递 ·

该论文介绍了SHROOM共享任务，旨在检测自然语言生成系统输出中的过度生成问题。共享任务使用了一个新的数据集，包含4000个模型输出，涵盖了机器翻译、释义生成和定义建模等自然语言处理任务。共有42个团队参与，其中27个团队撰写了系统描述论文。研究发现，许多参与者依赖少数模型，并使用合成数据或零-shot提示策略进行微调。大多数团队的表现超过基准系统，但得分最高的系统与随机处理一致。

SemEval-2024 Shared Task 6: SHROOM，一个关于幻觉和相关可观察溢出错误的共享任务

BriefGPT - AI 论文速递 ·