该论文介绍了SHROOM共享任务,旨在检测自然语言生成系统中的错误输出。研究使用了4000个标记数据,涵盖机器翻译等任务,参与团队达42个。提出了新的幻觉检测框架,准确度为0.78,计算效率高。此外,研究扩展了幻觉检测方法,推出了MHaluBench基准和UNIHD框架,以改善多模态模型的幻觉问题。
完成下面两步后,将自动完成登录并继续当前操作。