小红花·文摘

该论文介绍了SHROOM共享任务，旨在检测自然语言生成系统中的错误输出。研究使用了4000个标记数据，涵盖机器翻译等任务，参与团队达42个。提出了新的幻觉检测框架，准确度为0.78，计算效率高。此外，研究扩展了幻觉检测方法，推出了MHaluBench基准和UNIHD框架，以改善多模态模型的幻觉问题。