HalluDial: 自动对话层次的大规模幻觉评估基准
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
DiaHalu是第一个基于对话级别的幻觉评估基准,通过整合主题和对话模拟真实的人机互动场景。该数据集对大型语言模型和检测方法具有挑战性,对进一步研究有重要价值。
🎯
关键要点
- DiaHalu是第一个基于对话级别的幻觉评估基准。
- 该基准通过整合主题和模拟人机互动场景来进行评估。
- 研究中涉及两个ChatGPT3.5之间的对话,并对不符合人类语言约定的内容进行手动修改。
- DiaHalu覆盖四个常见的多轮对话领域和五个幻觉亚类。
- 该数据集对大型语言模型和检测方法具有挑战性,具有重要的研究价值。
➡️