AILS-NTUA 参加 SemEval-2024 任务 6: 高效模型调优用于幻觉检测和分析
原文中文,约400字,阅读约需1分钟。发表于: 。我们在 SemEval-2024 的 Hallucinations 和相关可观察生成错误的任务上提交了 SHROOM,要求进行流畅过度生成幻觉的二元分类。通过微调预训练模型和自然语言推理模型,并将这些模型进行集成,取得了 77.8% 和 79.9% 的准确率,相较于比赛中的顶尖结果 84.7% 和 81.3% 具有显著优势。
该论文介绍了SHROOM共享任务,旨在检测自然语言生成系统的过度生成问题。共享任务使用了新的数据集,包含4000个模型输出,涵盖了机器翻译、释义生成和定义建模等任务。共有42个团队参与,其中27个团队撰写了系统描述论文。最高得分的系统表现与随机处理一致。