本研究提出了QualBench,这是首个针对中文大型语言模型(LLMs)的多领域问答基准,重点在于本地化评估。研究表明,中文LLM在符合资格的知识方面表现优异,为未来的多领域知识增强和垂直领域训练提供了新机遇。
本文介绍了针对中文大型语言模型(LLM)的安全评估基准S-Eval,涵盖多种风险类型并提供灵活配置。研究发现区域特定风险是主要问题,并通过实验验证了不同模型的安全性表现。此外,开发了JADE平台以生成高风险问题测试模型的安全性,结果显示当前LLM在识别恶意内容方面存在不足。
该论文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。HalluQA包含450个对抗性问题,覆盖多个领域,考虑了中国的历史文化和社会现象。实验发现18个模型的非幻觉率低于50%。研究还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑的幻觉类型。
介绍了CORECODE数据集,用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了76,787个常识知识注释,并通过对话级推理和检测任务验证模型在该数据集上的能力。结果显示现有的开源中文大型语言模型在预测推理内容方面表现不佳。
本文介绍了 HalluQA 基准,用于衡量中文大型语言模型中的幻觉现象。通过对 24 个大型语言模型的广泛实验,发现有 18 个实现了低于 50% 的非幻觉率,表明 HalluQA 具有很高的挑战性。同时,分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑哪些类型的幻觉。
该论文建立了一个名为HalluQA的基准,用于衡量中文大型语言模型中的幻觉现象。通过对24个大型语言模型进行广泛实验,发现18个模型实现了低于50%的非幻觉率,表明HalluQA具有很高的挑战性。同时,该论文分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑哪些类型的幻觉。
该论文介绍了一个名为HalluQA的中文大型语言模型幻觉现象基准,包含450个对抗性问题,使用GPT-4设计了自动评估方法,对24个大型语言模型进行了广泛实验。结果表明,18个模型实现了低于50%的非幻觉率,说明HalluQA具有很高的挑战性。作者还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑哪些类型的幻觉。
完成下面两步后,将自动完成登录并继续当前操作。