本文提出了一种新的模型解释评估框架(AXE),该框架不依赖于理想的“真相”解释,提供独立的解释质量衡量标准,能够有效比较模型解释并检测“公平洗涤”现象。
本研究探讨大型语言模型(LLM)在后门攻击中的安全漏洞,分析后门的功能和机制。通过比较清洁样本与污染样本的自然语言解释,发现后门模型在解释质量和一致性上存在显著差异。这些发现有助于理解LLM后门攻击机制,并为检测此类漏洞提供框架,促进更安全的LLM发展。
本文探讨了可解释人工智能(XAI)的多个维度,包括解释的格式、准确性和用户信任。提出了元评估框架MetaQuantus,以评估不同解释质量的度量方法,并通过实验验证其有效性。文章总结了XAI的最新研究趋势,强调用户中心评估的重要性,旨在提高XAI系统的可用性和用户体验。
本文探讨了大型语言模型(LLMs)自我解释的忠实度,提出了基于自我一致性的测量方法CC-SHAP。研究表明,模型忠实度与任务和模型类型相关,并提出生成解释框架xLLM以提升解释质量,强调透明度和可理解性的重要性。
本文介绍了局部代理模型解释方法TS-MULE,旨在提高时间序列黑匣子模型的解释质量。研究展示了六种采样分割方法在深度学习模型上的性能,并探讨了不同解释框架的有效性和稳定性。
该论文回顾了解释性部分原型模型的研究,评估了解释质量,并提出了未来评估方法,旨在推进该研究领域的发展。同时提供了一个简明概括的“Co-12小抄”。
该研究提出了FINER框架,用于生成高保真度和高可理解性的风险检测分类器解释。通过从模型开发者、特征归因设计者和安全专家中获得解释,FINER框架采用解释引导的多任务学习策略提高保真度,并通过任务知识提高可理解性。FINER改善了风险检测的解释质量,并在恶意软件分析方面超过了最先进的工具。
完成下面两步后,将自动完成登录并继续当前操作。