本文提出了一种新的评估方法——代理忠实度(SF),解决了现有解释方法忠实度评估不足的问题。研究表明,引入空间感知显著提高了解释的忠实度,最佳忠实度(OF)在多种情况下提供更准确的解释,并在处理不同领域的数据和对抗样本时表现出更好的鲁棒性。
本研究探讨前馈计算图选择对神经网络性能的影响,发现图的忠实度和混合时间是两个重要的互补性度量。不当构造可能导致学习能力受限。
本研究提出了不忠实最小分组(BUMP)基准测试,用于评估长文本自动摘要的信度,并介绍了ALCE和ALiiCE等自动评估框架。研究指出大型语言模型在生成摘要和引用时面临挑战,并提出了改进引用质量的训练框架FRONT,显示出显著的提升潜力。
该研究提出了一种新型范式FAR,通过最小化属性映射的最大差异来训练模型的鲁棒属性。实验表明,该方法在对抗干扰下更稳健,并引入新的正则器以提高归因鲁棒性。此外,研究还提出了积分梯度正则化(IGR)方法,增强模型的对抗性,探索特征归因法的泛化能力及其在深度学习中的应用。
本文探讨了电路忠诚度的评估,提出了EAP-IG方法以保持电路核心属性。研究指出,忠诚度评估指标在解释时存在冲突,强调应关注忠诚度而非重叠程度。通过实验,提出了新的算法框架和任务重组方法,以提高模型解释的准确性和用户可理解性。
该研究论文介绍了一种全面的任务重组方法,称为电路发现,并提出了一种基于可微分遮罩的创新有效算法 DiscoGP。该算法成功解决了现有电路发现研究的两个主要限制,展示了最先进的忠实度、完整性和稀疏性,为新的洞察生成型 AI 的内部工作方式开拓了新的途径。
基于综合评估框架的结果显示,没有一个单一的度量标准在所有评估中始终优秀,揭示了细颗粒度支持评估的复杂性,因此我们提供了制定更有效度量标准的实践建议。
本文研究了生成模型在面部图像生成中的有效性与不足,提出了审核框架,发现生成面部图像存在忠实度和人口统计不平衡等限制。通过多种模型和方法,提升了面部识别系统的性能和多样性,并提出了新的去偏方法,增强了生成图像的质量和功能。
本文介绍了多种基于Grad-CAM的可视化技术,旨在提高对卷积神经网络(CNN)模型的理解和透明度。这些技术通过可视化重要输入区域,帮助用户建立对模型的信任,并评估其分类能力和解释性。研究还提出了Smooth Grad-CAM++和FM-G-CAM等新方法,增强了模型在物体定位和图像分类方面的解释性和准确性。
该论文提出了一种新方法,通过检索预测范例解决个性化聊天机器人中的OOP问题,并通过后验转换缩小训练与推理的差距。实验结果显示,该模型在自动指标和人类评估中均有显著改进。此外,研究探讨了如何通过强化学习和自然语言推断提高对话一致性,并提出反思性语言编程(RLP)以增强模型的自我意识和互动质量。
本文探讨了大型语言模型(LLMs)自我解释的忠实度,提出了基于自我一致性的测量方法CC-SHAP。研究表明,模型忠实度与任务和模型类型相关,并提出生成解释框架xLLM以提升解释质量,强调透明度和可理解性的重要性。
本文介绍了FAITHSCORE评估指标,用于衡量大型视觉语言模型(LVLMs)生成答案的忠实度。研究发现,LVLMs在颜色和计数方面表现良好,但在处理长答案和复杂关系时存在困难。为此,提出了改进评估方法和一致性训练方法,以提高模型性能并减少幻觉现象。
本文探讨大型语言模型(LLMs)的忠诚度评估,提出了一种基于自我一致性的测量方法CC-SHAP,强调模型输出的自我一致性与内部工作的重要性。通过反事实输入编辑器和生成的自然语言解释(NLEs)重建输入,评估模型的忠实度。研究发现模型大小与忠实度之间存在复杂关系,并提出生成解释框架xLLM以提高解释质量。
本研究评估了通过强化学习和人工反馈提高大型语言模型(LLM)置信度校准的方法。采用合理提示和温度缩放显著降低了校准误差。研究表明,模型的校准能力依赖于训练设置和度量,并提出了新的置信度估计框架,以增强用户对模型输出的信任。实验验证了多语言置信度估计技术的有效性,并提出了评估多个候选答案可信度的新方法,以改善模型的准确性和可靠性。
本文探讨了自然语言推理中的归因方法,评估其合理性和忠实度。提出了多语言 NLI 数据集,回顾了模型解释方法,强调忠实度的重要性,并总结了现有方法的优缺点及未来研究方向。此外,介绍了提高语言模型解释质量的框架 xLLM,以及评估自然语言解释忠实度的挑战和方法。
该研究使用自洽性检查来测量大型语言模型的忠实度,并应用于三种类型的自我解释。研究发现,忠实度与任务和模型相关,不同任务和模型的解释方式也不同。该研究结果在提示变体方面具有稳健性。
本研究评估了大型语言模型在社会科学研究中的算法忠实度和偏差,并发现在表示全球变暖观点时存在挑战。研究强调了在使用大型语言模型进行调查模拟时进行细致的条件设置、模型选择、调查问卷格式和偏差评估的重要性。进一步研究提示工程和算法审计对于利用大型语言模型的潜力以及解决其固有限制至关重要。
本研究提出了两个定量指标,即图一致性和图忠实度,用于衡量基于知识图谱的解释的忠实性,并引入了一种新的训练方法CGNN。CGNN方法可以提高解释的一致性和忠实度,为开发基于图的忠实解释结构提供了前进的方向。
本文提出了一种名为 FECS 的新解码方法,用于解决自然语言生成任务中的幻觉问题。该方法通过上下文感知的正则化项来增强语义上与来源相似的标记,同时惩罚生成文本的重复性。在抽象化摘要和对话生成两个任务中,FECS 显示出了有效性。结果表明,FECS 能够持续提升忠实度,同时保持输出多样性。
该论文提出了一种新的基于概率方法的度量方法,用来评估生成模型的忠实度和多样性。该方法已在玩具实验和最先进的生成模型上进行了广泛研究,并可在GitHub上获得代码。
完成下面两步后,将自动完成登录并继续当前操作。