小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了QualBench,这是首个针对中文大型语言模型(LLMs)的多领域问答基准,重点在于本地化评估。研究表明,中文LLM在符合资格的知识方面表现优异,为未来的多领域知识增强和垂直领域训练提供了新机遇。

QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain Evaluation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

LHMKE是一种全面评估中文大型语言模型知识的基准,包括10,465个问题,涵盖30个学科的75个任务。通过零-shot评估,比较了11个中文大型语言模型在不同学科的性能。验证了GPT-4的自动评分主观预测能力。研究结果表明LHMKE是具有挑战性和先进性的评估标准。

大型语言模型中的中文知识校正基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。研究人员通过构建对抗样本和自动评估方法发现18个模型中有低于50%的非幻觉率。他们还分析了不同类型模型中的幻觉类型和原因,并讨论了应优先考虑哪些类型的幻觉。

VideoHallucer:评估大型视频语言模型中的内在和外在幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

为了评估中文大型语言模型(LLMs)的数学推理能力,研究人员提出了FineMath数据集,涵盖小学数学教学的主要概念,划分为17类数学应用问题,以深入分析LLMs的数学推理能力。实验结果显示,中文LLMs的数学推理能力有待提升。该数据集即将公开发布。

FineMath:面向中文大语言模型的细粒度数学评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

该论文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。HalluQA包含450个对抗性问题,覆盖多个领域,考虑了中国的历史文化和社会现象。实验发现18个模型的非幻觉率低于50%。研究还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑的幻觉类型。

医学视觉问答中的幻觉基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-11T00:00:00Z

介绍了CORECODE数据集,用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了76,787个常识知识注释,并通过对话级推理和检测任务验证模型在该数据集上的能力。结果显示现有的开源中文大型语言模型在预测推理内容方面表现不佳。

CORECODE: 一个带有基准任务的常识注释对话数据集,用于中文大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-20T00:00:00Z

本文介绍了 HalluQA 基准,用于衡量中文大型语言模型中的幻觉现象。通过对 24 个大型语言模型的广泛实验,发现有 18 个实现了低于 50% 的非幻觉率,表明 HalluQA 具有很高的挑战性。同时,分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑哪些类型的幻觉。

GPT-4V (ision): 幻觉的整体分析:偏见和干扰挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-06T00:00:00Z

该论文建立了一个名为HalluQA的基准,用于衡量中文大型语言模型中的幻觉现象。通过对24个大型语言模型进行广泛实验,发现18个模型实现了低于50%的非幻觉率,表明HalluQA具有很高的挑战性。同时,该论文分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑哪些类型的幻觉。

揭开塞壬之歌:迈向可靠的事实冲突幻觉检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该论文介绍了一个名为HalluQA的中文大型语言模型幻觉现象基准,包含450个对抗性问题,使用GPT-4设计了自动评估方法,对24个大型语言模型进行了广泛实验。结果表明,18个模型实现了低于50%的非幻觉率,说明HalluQA具有很高的挑战性。作者还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑哪些类型的幻觉。

评估中文大型语言模型中的幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码