小红花·文摘

本文提出了一种新的模型解释评估框架（AXE），该框架不依赖于理想的“真相”解释，提供独立的解释质量衡量标准，能够有效比较模型解释并检测“公平洗涤”现象。

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLM）在后门攻击中的安全漏洞，分析后门的功能和机制。通过比较清洁样本与污染样本的自然语言解释，发现后门模型在解释质量和一致性上存在显著差异。这些发现有助于理解LLM后门攻击机制，并为检测此类漏洞提供框架，促进更安全的LLM发展。

BriefGPT - AI 论文速递 ·

本文探讨了可解释人工智能（XAI）的多个维度，包括解释的格式、准确性和用户信任。提出了元评估框架MetaQuantus，以评估不同解释质量的度量方法，并通过实验验证其有效性。文章总结了XAI的最新研究趋势，强调用户中心评估的重要性，旨在提高XAI系统的可用性和用户体验。

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）自我解释的忠实度，提出了基于自我一致性的测量方法CC-SHAP。研究表明，模型忠实度与任务和模型类型相关，并提出生成解释框架xLLM以提升解释质量，强调透明度和可理解性的重要性。

BriefGPT - AI 论文速递 ·

本文介绍了局部代理模型解释方法TS-MULE，旨在提高时间序列黑匣子模型的解释质量。研究展示了六种采样分割方法在深度学习模型上的性能，并探讨了不同解释框架的有效性和稳定性。

BriefGPT - AI 论文速递 ·

该论文回顾了解释性部分原型模型的研究，评估了解释质量，并提出了未来评估方法，旨在推进该研究领域的发展。同时提供了一个简明概括的“Co-12小抄”。

BriefGPT - AI 论文速递 ·

该研究提出了FINER框架，用于生成高保真度和高可理解性的风险检测分类器解释。通过从模型开发者、特征归因设计者和安全专家中获得解释，FINER框架采用解释引导的多任务学习策略提高保真度，并通过任务知识提高可理解性。FINER改善了风险检测的解释质量，并在恶意软件分析方面超过了最先进的工具。

BriefGPT - AI 论文速递 ·