HalluDial: 自动对话层次的大规模幻觉评估基准

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

DiaHalu是第一个基于对话级别的幻觉评估基准,通过整合主题和对话模拟真实的人机互动场景。该数据集对大型语言模型和检测方法具有挑战性,对进一步研究有重要价值。

🎯

关键要点

  • DiaHalu是第一个基于对话级别的幻觉评估基准。
  • 该基准通过整合主题和模拟人机互动场景来进行评估。
  • 研究中涉及两个ChatGPT3.5之间的对话,并对不符合人类语言约定的内容进行手动修改。
  • DiaHalu覆盖四个常见的多轮对话领域和五个幻觉亚类。
  • 该数据集对大型语言模型和检测方法具有挑战性,具有重要的研究价值。
➡️

继续阅读