本文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。研究人员通过构建对抗样本和自动评估方法发现18个模型中有低于50%的非幻觉率。他们还分析了不同类型模型中的幻觉类型和原因,并讨论了应优先考虑哪些类型的幻觉。
OpinSummEval是一个包含人工评价和14个观点总结模型输出的数据集。研究发现,神经网络的指标通常优于非神经网络的指标,但即使是强大的模型如BART和GPT-3/3.5也不能在所有维度上一致地与人工评分相关,需要改进观点总结自动评估方法。
本文介绍了基于情境的对话模型在第二语言学习中的重要性,并提出了一种新颖的自动评估方法。该方法通过在大型语言模型上进行微调,有效地训练话题和未遇到的话题,为广泛的会话主题提供了有希望的解决方案。同时,该研究还解决了对话系统领域缺乏可靠自动评估指标的问题,提出了一种利用经过微调的语言模型来评估情境对话模型性能的方法。
本研究提出了一种四阶段的框架来评估大型语言模型生成的内容中的刻板印象和偏见,并以教育领域为案例研究构建了Edu-FairBench。实验结果显示五个LLMs存在不同程度的刻板印象和偏见,自动评估方法与人工注释相关性高。
本文比较了三种自动评估方法,发现基于学习的指标是评估开放领域生成对话系统最有效的方法。作者提出了一种新的基于学习的评估指标 PONE,实验证明使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。
本研究提出了一种四阶段的框架,用于评估大型语言模型生成的内容中的刻板印象和偏见。以教育领域为案例研究,构建了Edu-FairBench,并发现五个LLMs存在不同程度的刻板印象和偏见。自动评估方法与人工注释相关性高。
该论文介绍了一个名为HalluQA的中文大型语言模型幻觉现象基准,包含450个对抗性问题,使用GPT-4设计了自动评估方法,对24个大型语言模型进行了广泛实验。结果表明,18个模型实现了低于50%的非幻觉率,说明HalluQA具有很高的挑战性。作者还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑哪些类型的幻觉。
完成下面两步后,将自动完成登录并继续当前操作。