小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究探讨了大规模语言模型(LLMs)与知识图谱(KGs)之间的元语言不一致性问题,提出了一个检测基准,以评估二者的事实性和元语言不一致性,为知识图谱构建提供新工具。初步验证已在Github发布。

A Benchmark for the Detection of Metalinguistic Inconsistencies between Large-scale Language Models and Knowledge Graphs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z
中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

在人工智能时代,大语言模型(LLMs)的安全性问题备受关注。评估和提升模型在法律、政策和伦理方面的安全性至关重要。传统评测方法存在局限,需要建立更精确的评测框架。中国推出了Chinese SafetyQA,旨在评测中文安全知识,涵盖法律和道德等领域,以提升模型的安全应用能力。

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集,仅三个大模型达及格线

机器之心
机器之心 · 2024-12-26T09:01:25Z

本文探讨了大语言模型生成内容的事实不准确问题,提出了一种显式工作记忆(EWE)方法,通过实时反馈提升文本生成的准确性。实验结果表明,EWE显著提高了生成内容的可靠性。

通过显式工作记忆提高事实性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本文介绍了一个包含860个公共示例和859个私有示例的数据集。公共数据集已发布用于评估LLM,而私有数据集则保密以防基准污染。FACTS示例涵盖多个领域,包含不同长度的文档,用户请求包括摘要、问答生成和重写任务,但不涉及创造性或复杂推理。

FACTS基础:评估大型语言模型事实性的全新基准

Google DeepMind Blog
Google DeepMind Blog · 2024-12-17T15:29:00Z

本研究针对放射科报告生成中的事实正确性问题,提出了一种全新的基于语义一致性的事实性不确定性量化框架。该方法通过无需改动底层模型或访问其内部状态,作为即插即用模块与现有模型无缝集成,显著提高了自动生成报告的事实准确性,提升幅度达10%。

基于语义一致性的事实性不确定性量化在放射科报告生成中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

AIxiv专栏促进学术交流,已发布2000多篇文章。淘天集团的未来生活实验室推出Chinese SimpleQA评测集,专注于中文模型的事实正确性,涵盖99个主题,经过严格质量控制,评估多种模型的表现,推动中文AI的发展。

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

机器之心
机器之心 · 2024-11-20T05:12:26Z

本文研究了大型语言模型在回答事实型问题时的性能,提出了新的基准和评估方法。实验证明,模型在生成答案的真实性上存在挑战,尤其是在低资源语言中。研究探讨了如何利用语言模型的知识进行事实检查,并提出了改进模型性能的建议。

衡量大型语言模型的短期事实性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z
介绍SimpleQA

人工智能领域的一个重要问题是如何训练模型以生成事实正确的回答。目前的语言模型有时会产生虚假信息,称为“幻觉”。我们正在开源一个新的基准SimpleQA,以评估语言模型的事实性。

介绍SimpleQA

OpenAI
OpenAI · 2024-10-30T10:00:00Z

本研究提出了一种图形不确定性方法,旨在解决大型语言模型在长文本生成中的虚构和不确定性问题。通过二分图表示生成与声明的关系,结果显示该方法在多个任务上提高了6.8%的AUPRC,并在事实性方面改善了2-4%。

基于图的长文本语言模型输出的不确定性度量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

研究表明,现有的自然语言处理辟谣任务和数据集无法有效应对虚假信息。大型语言模型在事实核查中提高效率,但在高风险环境中不应作为可靠替代品。新模型显示出与人类相似的真相检测能力,并提出了新的欺骗检测框架。同时,研究发现大型语言模型易受外部错误信息影响,尤其在多轮对话中。

德国的事实性与欺骗性有多纠缠?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文探讨了大型语言模型(LLMs)在法律领域的应用,特别是隐私和偏见等法律问题。研究介绍了基于瑞士法律的NLP基准测试和开源模型ChatLaw,评估了不同LLMs在法律任务中的表现。尽管LLMs在分类任务中表现良好,但仍需改进。文章强调了LLMs在法律文本理解和案例检索中的优势与挑战,并提出未来研究方向。

法律领域大型语言模型的事实性研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

本研究针对大型语言模型中的“幻觉”现象,提出了感应-对比解码、忠实微调(F2)和适应性激活引导(ACT)等方法,以提高生成内容的真实性。实验结果表明,这些方法有效减少了虚假信息的生成,并提升了模型在TruthfulQA基准测试中的表现,展示了在自然语言处理任务中的潜力。

通过解码时的幻觉和真实比较器改善大型语言模型的事实性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

本文介绍了一种可解释的跨模态去上下文检测方法,旨在识别不匹配内容和矛盾信息,以提高虚假信息检测的准确性和可解释性。研究提出了新型架构和数据集,评估图像与标题的匹配,增强多模态虚假信息检测效果。

相似性优先于事实性:我们在多模态场外错误信息检测上有进展吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

大型语言模型在开放式主题的事实查询中常出现错误。研究提出了一种名为SAFE的方法,通过多步推理评估长篇回复的准确性。实验证明,SAFE在评估上超越人类标注者,且成本低。研究还探讨了长篇问答任务的评估挑战,并提出改进建议,以提高答案的相关性和可靠性。

OLAPH: 改进生物医学长篇问答中的事实性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z

本文提出了一个无幻觉的框架,以序列标记为例,该框架非常适用于蒸馏。证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。

增强大型语言模型的事实性通过协同解码关键标记

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z

研究发现,预训练的抽象摘要系统性能可靠,但输出的摘要常与输入不符且存在事实错误。作者通过综合和人工标注数据训练模型,识别摘要中的事实错误,并研究了单词、依赖和句子级别的事实性。实验结果显示,人工标注的细粒度数据提供更有效的训练信号,最佳事实性检测模型能识别非事实标记,从而提高抽象摘要模型的准确性。

通过数据提炼和条件生成填空改进抽象摘要的事实错误修正

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-13T00:00:00Z

该研究讨论了大型语言模型中的事实性问题,分析了其不准确性对不同领域应用的潜在影响和挑战,介绍了评估模型事实性的方法和策略,提供了研究人员指南以增强大型语言模型的事实可靠性。

大型语言模型中的事实性调查:知识、检索与领域特定性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z

该文章介绍了一种新的事实评估方法FactKB,使用基于实体知识的语言模型,解决了现有模型在新领域中存在的实体和关系错误问题。在测试数据上表现出最先进的性能水平,并在摘要中检测错误实体和关系的能力显著提高,证明其在领域通用性和鲁棒性方面的特点。

超越事实性:大型语言模型作为知识生成器的综合评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z

该研究分析了人工反馈在训练和评估中的使用,发现偏好得分未充分表示重要方面,如事实性,并可能受到混杂因素的影响。研究建议未来的研究仔细考虑偏好得分是否与所期望的目标一致。

大型语言模型中主观人类偏好和价值的反馈学习的过去、现状和更好未来

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-11T00:00:00Z

谷歌更新了Bard,集成了各种谷歌服务,增加了Bard Extensions和Google It的新功能,用户可以保密地调用个人信息,分享对话并继续。

后来者居上!谷歌Bard开始集成谷歌各种服务 同时增加回答事实性核查

蓝点网
蓝点网 · 2023-09-20T09:25:20Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码