VideoHallucer:评估大型视频语言模型中的内在和外在幻觉
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。研究人员通过构建对抗样本和自动评估方法发现18个模型中有低于50%的非幻觉率。他们还分析了不同类型模型中的幻觉类型和原因,并讨论了应优先考虑哪些类型的幻觉。
🎯
关键要点
- HalluQA是一个用于评估中文大型语言模型中幻觉现象的基准。
- HalluQA包含450个对抗性问题,涵盖多个领域,考虑了中国的历史文化、习俗和社会现象。
- 研究中考虑了模仿性虚假和事实错误两种类型的幻觉。
- 使用GPT-4设计了一种自动评估方法来判断模型输出的幻觉情况。
- 对24个大型语言模型进行了实验,其中18个模型的非幻觉率低于50%。
- HalluQA被认为具有很高的挑战性。
- 分析了不同类型模型中的主要幻觉类型及其原因。
- 讨论了不同类型模型应优先关注的幻觉类型。
➡️