小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文提出了一种新的评估方法——代理忠实度(SF),解决了现有解释方法忠实度评估不足的问题。研究表明,引入空间感知显著提高了解释的忠实度,最佳忠实度(OF)在多种情况下提供更准确的解释,并在处理不同领域的数据和对抗样本时表现出更好的鲁棒性。

面向空间感知和最佳忠实度的基于概念的解释

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究探讨前馈计算图选择对神经网络性能的影响,发现图的忠实度和混合时间是两个重要的互补性度量。不当构造可能导致学习能力受限。

什么是优质的前馈计算图?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究提出了不忠实最小分组(BUMP)基准测试,用于评估长文本自动摘要的信度,并介绍了ALCE和ALiiCE等自动评估框架。研究指出大型语言模型在生成摘要和引用时面临挑战,并提出了改进引用质量的训练框架FRONT,显示出显著的提升潜力。

引文评估中忠实度指标与人类的比较分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

该研究提出了一种新型范式FAR,通过最小化属性映射的最大差异来训练模型的鲁棒属性。实验表明,该方法在对抗干扰下更稳健,并引入新的正则器以提高归因鲁棒性。此外,研究还提出了积分梯度正则化(IGR)方法,增强模型的对抗性,探索特征归因法的泛化能力及其在深度学习中的应用。

标准化的AOPC:修正特征归因可解释性中误导性的忠实度指标

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z

本文探讨了电路忠诚度的评估,提出了EAP-IG方法以保持电路核心属性。研究指出,忠诚度评估指标在解释时存在冲突,强调应关注忠诚度而非重叠程度。通过实验,提出了新的算法框架和任务重组方法,以提高模型解释的准确性和用户可理解性。

变压器电路忠实度指标的鲁棒性不高

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

该研究论文介绍了一种全面的任务重组方法,称为电路发现,并提出了一种基于可微分遮罩的创新有效算法 DiscoGP。该算法成功解决了现有电路发现研究的两个主要限制,展示了最先进的忠实度、完整性和稀疏性,为新的洞察生成型 AI 的内部工作方式开拓了新的途径。

野外环境中的功能忠实度:不同 iable 计算图剪枝的电路发现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-04T00:00:00Z

基于综合评估框架的结果显示,没有一个单一的度量标准在所有评估中始终优秀,揭示了细颗粒度支持评估的复杂性,因此我们提供了制定更有效度量标准的实践建议。

研究生成文本中细粒度引文评估:忠实度度量的比较分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-21T00:00:00Z

本文研究了生成模型在面部图像生成中的有效性与不足,提出了审核框架,发现生成面部图像存在忠实度和人口统计不平衡等限制。通过多种模型和方法,提升了面部识别系统的性能和多样性,并提出了新的去偏方法,增强了生成图像的质量和功能。

ChildDiffusion:利用稳定扩散和大规模语言模型,释放生成式 AI 和可控增强技术在儿童面部数据中的潜力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文介绍了多种基于Grad-CAM的可视化技术,旨在提高对卷积神经网络(CNN)模型的理解和透明度。这些技术通过可视化重要输入区域,帮助用户建立对模型的信任,并评估其分类能力和解释性。研究还提出了Smooth Grad-CAM++和FM-G-CAM等新方法,增强了模型在物体定位和图像分类方面的解释性和准确性。

预期 Grad-CAM: 迈向梯度忠实度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

该论文提出了一种新方法,通过检索预测范例解决个性化聊天机器人中的OOP问题,并通过后验转换缩小训练与推理的差距。实验结果显示,该模型在自动指标和人类评估中均有显著改进。此外,研究探讨了如何通过强化学习和自然语言推断提高对话一致性,并提出反思性语言编程(RLP)以增强模型的自我意识和互动质量。

量化和优化基于人物的角色扮演中的全球忠实度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

本文探讨了大型语言模型(LLMs)自我解释的忠实度,提出了基于自我一致性的测量方法CC-SHAP。研究表明,模型忠实度与任务和模型类型相关,并提出生成解释框架xLLM以提升解释质量,强调透明度和可理解性的重要性。

基于概念的解释的可读性和忠实度评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z

本文介绍了FAITHSCORE评估指标,用于衡量大型视觉语言模型(LVLMs)生成答案的忠实度。研究发现,LVLMs在颜色和计数方面表现良好,但在处理长答案和复杂关系时存在困难。为此,提出了改进评估方法和一致性训练方法,以提高模型性能并减少幻觉现象。

VALOR-EVAL: 大型视觉语言模型的整体覆盖和忠实度评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-22T00:00:00Z

本文探讨大型语言模型(LLMs)的忠诚度评估,提出了一种基于自我一致性的测量方法CC-SHAP,强调模型输出的自我一致性与内部工作的重要性。通过反事实输入编辑器和生成的自然语言解释(NLEs)重建输入,评估模型的忠实度。研究发现模型大小与忠实度之间存在复杂关系,并提出生成解释框架xLLM以提高解释质量。

概率也很重要:大型语言模型中自由文本解释的忠实度的更为准确的评估指标

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

本研究评估了通过强化学习和人工反馈提高大型语言模型(LLM)置信度校准的方法。采用合理提示和温度缩放显著降低了校准误差。研究表明,模型的校准能力依赖于训练设置和度量,并提出了新的置信度估计框架,以增强用户对模型输出的信任。实验验证了多语言置信度估计技术的有效性,并提出了评估多个候选答案可信度的新方法,以改善模型的准确性和可靠性。

通过引发忠实度来校准大型语言模型的置信度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

本文探讨了自然语言推理中的归因方法,评估其合理性和忠实度。提出了多语言 NLI 数据集,回顾了模型解释方法,强调忠实度的重要性,并总结了现有方法的优缺点及未来研究方向。此外,介绍了提高语言模型解释质量的框架 xLLM,以及评估自然语言解释忠实度的挑战和方法。

多语言和单语细调语言模型的解释忠实度比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-19T00:00:00Z

该研究使用自洽性检查来测量大型语言模型的忠实度,并应用于三种类型的自我解释。研究发现,忠实度与任务和模型相关,不同任务和模型的解释方式也不同。该研究结果在提示变体方面具有稳健性。

大型语言模型作为忠实的解释器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-07T00:00:00Z

本研究评估了大型语言模型在社会科学研究中的算法忠实度和偏差,并发现在表示全球变暖观点时存在挑战。研究强调了在使用大型语言模型进行调查模拟时进行细致的条件设置、模型选择、调查问卷格式和偏差评估的重要性。进一步研究提示工程和算法审计对于利用大型语言模型的潜力以及解决其固有限制至关重要。

大型语言模型能否捕捉全球变暖的公众舆论? 算法忠实度和偏见的实证评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-01T00:00:00Z

本研究提出了两个定量指标,即图一致性和图忠实度,用于衡量基于知识图谱的解释的忠实性,并引入了一种新的训练方法CGNN。CGNN方法可以提高解释的一致性和忠实度,为开发基于图的忠实解释结构提供了前进的方向。

对知识图谱的可解释推荐进行忠实路径语言建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-25T00:00:00Z

本文提出了一种名为 FECS 的新解码方法,用于解决自然语言生成任务中的幻觉问题。该方法通过上下文感知的正则化项来增强语义上与来源相似的标记,同时惩罚生成文本的重复性。在抽象化摘要和对话生成两个任务中,FECS 显示出了有效性。结果表明,FECS 能够持续提升忠实度,同时保持输出多样性。

丰富保真度的对比搜索:在文本生成中协调忠实度与多样性的权衡

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-23T00:00:00Z

该论文提出了一种新的基于概率方法的度量方法,用来评估生成模型的忠实度和多样性。该方法已在玩具实验和最先进的生成模型上进行了广泛研究,并可在GitHub上获得代码。

使用模糊精确率和召回率评估分类系统对软标签的准确性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码