小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了HalluQA基准,用于评估中文大型语言模型中的幻觉现象。研究人员通过构建对抗样本和自动评估方法发现18个模型中有低于50%的非幻觉率。他们还分析了不同类型模型中的幻觉类型和原因,并讨论了应优先考虑哪些类型的幻觉。

VideoHallucer:评估大型视频语言模型中的内在和外在幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

OpinSummEval是一个包含人工评价和14个观点总结模型输出的数据集。研究发现,神经网络的指标通常优于非神经网络的指标,但即使是强大的模型如BART和GPT-3/3.5也不能在所有维度上一致地与人工评分相关,需要改进观点总结自动评估方法。

大规模观点概括:使用 XL-OPSUMM 进行增量观点概括

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-16T00:00:00Z

本文介绍了基于情境的对话模型在第二语言学习中的重要性,并提出了一种新颖的自动评估方法。该方法通过在大型语言模型上进行微调,有效地训练话题和未遇到的话题,为广泛的会话主题提供了有希望的解决方案。同时,该研究还解决了对话系统领域缺乏可靠自动评估指标的问题,提出了一种利用经过微调的语言模型来评估情境对话模型性能的方法。

长期对话中的因果知觉位置去偏微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z

本研究提出了一种四阶段的框架来评估大型语言模型生成的内容中的刻板印象和偏见,并以教育领域为案例研究构建了Edu-FairBench。实验结果显示五个LLMs存在不同程度的刻板印象和偏见,自动评估方法与人工注释相关性高。

大型语言模型偏见缓解的知识编辑视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-15T00:00:00Z

本文介绍了基于情境的对话模型在第二语言学习中的重要性,并提出了一种新颖的自动评估方法。该方法通过在大型语言模型上进行微调,有效地训练话题和未遇到的话题,为广泛的会话主题提供了有希望的解决方案。同时,该研究还解决了对话系统领域缺乏可靠自动评估指标的问题,提出了一种利用经过微调的语言模型来评估情境对话模型性能的方法。

以对话为基础在不同教育层次教授科学概念

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-16T00:00:00Z

本文比较了三种自动评估方法,发现基于学习的指标是评估开放领域生成对话系统最有效的方法。作者提出了一种新的基于学习的评估指标 PONE,实验证明使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。

PairEval:使用配对比较进行开放域对话评价

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本研究提出了一种四阶段的框架,用于评估大型语言模型生成的内容中的刻板印象和偏见。以教育领域为案例研究,构建了Edu-FairBench,并发现五个LLMs存在不同程度的刻板印象和偏见。自动评估方法与人工注释相关性高。

社会偏见探测:语言模型的公平性基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-15T00:00:00Z

该论文介绍了一个名为HalluQA的中文大型语言模型幻觉现象基准,包含450个对抗性问题,使用GPT-4设计了自动评估方法,对24个大型语言模型进行了广泛实验。结果表明,18个模型实现了低于50%的非幻觉率,说明HalluQA具有很高的挑战性。作者还分析了不同类型模型中主要类型的幻觉及其原因,并讨论了不同类型模型应优先考虑哪些类型的幻觉。

评估中文大型语言模型中的幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码