小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究探讨大型语言模型在气候问题上的忠实性不足,提出ClimateGPT Faithful+模型,通过自动评估和排除不忠实数据,将支持声明的忠实性从30%提升至57%。

Listening to the Context: Towards Faithful Large Language Models for Retrieval-Augmented Generation on Climate Issues

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究解决了在潜在混淆和非忠实性条件下因果发现的挑战。论文提出了一种新颖的无参数评分方法,通过将其融入数据兼容的因果发现算法dcFCI,首次有效应对混合数据类型的问题。研究表明,dcFCI在小规模和异质数据集中显著优于现有方法,为因果推理和决策提供了更强的支持。

dcFCI:在潜在混淆、非忠实性和混合数据下的稳健因果发现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-10T00:00:00Z

本研究提出了一种逐层迭代压缩技术,解决深度神经网络层数增加导致的信息损失问题。该方法通过单独压缩每层并补偿误差,提升了模型的输入输出和结构忠实性。实验结果表明,该技术在乳腺癌诊断数据集上显著降低了不忠实性,为复杂MLP模型的压缩提供了新思路。

ILLC:逐层迭代压缩以增强SpArX中的结构忠实性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z

本研究探讨了因果发现与推断中概率分布与图之间的忠实性问题,提出了不忠实概率分布的示例,并分析了其对因果推断方法的影响。

Unfaithful Probability Distributions in Binary and Ternary Causal Directed Acyclic Graphs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-30T00:00:00Z

本研究评估了大型语言模型(LLMs)的生成输出质量,发现高质量输出与记忆文本比例相关。提出了新的评估框架和基准测试,分析了模型在多轮多语种指令执行中的能力及格式偏见问题,强调了提示设计的重要性,并探讨了长文本摘要中的忠实性与位置信息偏差。

ReFF:在多种任务中加强语言模型的格式忠实性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了一种新的波形归因方法(WAM),用于解决深度神经网络在安全决策中的不透明性。WAM扩展了传统梯度归因方法,统一解释图像、音频和3D形状分类器。实验表明,WAM在忠实性和解释性上优于现有方法,能识别输入的重要区域和模式。

一个波形解释所有:后期解释的统一视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本研究调查了大型语言模型在生成响应时的上下文忠实性,并提出了一种量化记忆强度的方法。研究发现,高记忆强度的问题更倾向于依赖内部记忆,而不同风格的证据能提高其接受度。

大型语言模型中上下文忠实性的研究:记忆强度和证据风格的作用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

大语言模型在复杂问题中性能受限,因此提出了顺序指令调整策略,通过增加指令调整数据,使模型能够执行多个顺序指令。实验证明,该策略在推理、多语言和多模态任务中优于传统指令调整基线。希望该方法能为指令调整研究提供新的途径。

舞链之中:调和指令跟随与忠实性的语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-31T00:00:00Z

大型语言模型在处理代词时表现较差,对于新代词和干扰因素的处理能力有限。研究人员呼吁解决这些问题。

英语 LLMs 的代词使用准确度:是推理、重复还是偏见?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

本文介绍了使用大型语言模型(LLM)评估文本摘要中的实际一致性(FC)的研究。通过引入TreatFact数据集,作者对11个LLM进行了FC评估,并发现通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源LLM的性能。然而,现有的方法和基于LLM的评估器都无法捕捉到临床摘要中的实际不一致性,给FC评估提出了新的挑战。

FABLES:评估长篇书籍摘要的忠实性与内容选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

研究使用自然语言推理模型提高对话摘要的覆盖率和忠实度。通过实验证实该方法的有效性,并评估不同维度的对话摘要。提供有关评估对话摘要的度量标准的见解。

基于精细化自然语言推理的多样化摘要任务忠实性评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码