小红花·文摘

大语言模型神经几何学机械可解释性完全指南

极道 ·

文章讨论了大语言模型（LLM）的可解释性，强调动态评估的重要性。尽管LLM在AI领域取得了突破，其内部运作仍不透明。研究者提出了基于SMILE的框架，通过分析用户输入的细微变化，提供模型决策的局部解释。同时，开发了使用开源模型的代理解决方案，以降低成本并实现模型可解释性。随着技术进步，LLM的可解释性正在快速发展，推动更可信的AI模型。

大语言模型可解释性入门

KDnuggets ·

大模型哪里出问题、怎么修，这篇可解释性综述一次讲清

机器之心 ·

面向临床的心电图AI，上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

机器之心 ·

「地质约束显式+数据驱动模型」的新路径，浙江大学团队实现跨区域矿产远景预测性能和可解释性提升

HyperAI超神经 ·

ExpertLens：激活引导特征具有高度可解释性

Apple Machine Learning Research ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

兼顾准确率与可解释性，DeepSEA实现抗生素耐药蛋白注释范式转变

机器之心 ·

演讲：通过知识图谱提升大语言模型的可解释性和可信度

InfoQ ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

会“思考”的目标检测模型来了！IDEA提出Rex-Thinker：基于思维链的指代物体检测模型，准确率+可解释性双突破

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能

机器之心 ·

本文探讨了软件工程中深度学习的因果可解释性，提出了新方法DoCode，通过因果推断为模型预测提供编程语言相关的解释，促进可信人工智能在软件工程中的应用。

深化软件工程中深度学习的因果可解释性研究

BriefGPT - AI 论文速递 ·

在生成式人工智能驱动的质量保证中建立信任：确保透明性和可解释性

The New Stack ·

计算机视觉前沿：深度人工智能时代的可解释性、效率、鲁棒性与统一学习

DEV Community ·

本研究解决了时间序列分类的可解释性问题，提出了新的评估指标，发现简化时间序列在可解释性上优于原始数据，尤其在季节性和非平稳序列中表现更佳。

评估时间序列分类的简化算法的可解释性

BriefGPT - AI 论文速递 ·

本研究解决了现有深度学习模型在轨迹预测中预测不可信和不合理的问题。我们提出了一种新方法，结合了所有交通参与者类别的交互和运动学先验，通过特定于类别的交互层来捕捉行为差异，同时引入了基于规则的交互重要性评分DG-SFM，以提高交互的可解释性。实验结果表明，尽管准确率略有下降，但我们的方法消除了数据集中不合理的轨迹，从而增强了轨迹预测的可信度。

TPK：集成先验知识的可信轨迹预测以提高可解释性和运动学合理性

BriefGPT - AI 论文速递 ·

本研究针对自然语言处理(NLP)模型的可解释性问题，提出EvalxNLP框架，以评估各种最新特征归因方法。该框架集成了多种可解释性技术，并提供互动的文本解释，以提高用户对生成说明和评估结果的理解，结果显示用户满意度高，表明该框架在可解释性工具的推广和比较方面具有重要潜力。

EvalxNLP：一个用于评估NLP模型后置可解释性方法的框架

BriefGPT - AI 论文速递 ·

本研究解决了解释方法在不同子群体间性能差异的公平性问题，展示了广泛使用的后置特征归因方法在信实性、稳健性和复杂性方面存在显著的性别差异。这些差异在模型经过无偏数据集预训练或微调后依然存在，强调了在发展和应用解释性方法时需关注解释的公平性，以免在关键领域产生偏见性的结果。

解释性中的性别偏见：研究后置方法中的性能差异

BriefGPT - AI 论文速递 ·

本研究解决了人工智能在公平性和透明性方面的担忧，特别是对保护群体的影响。通过提出一个集成局部后验解释方法的管道，研究探讨了如何利用解释性方法来检测和解析不公平问题。研究结果显示，这些解释方法在实现公平性方面具有潜力，同时强调需要谨慎考虑关键的公平性评估方面。

作为偏见检测器的解释：对局部后验解释性人工智能方法公平性探索的批判性研究

BriefGPT - AI 论文速递 ·

本研究探讨了生物统计学中对可解释性模型的需求，运用机制可解释性技术揭示神经网络的计算过程，展示其在因果推断中的潜力，增强对生物统计分析的理解。

神经网络因果性机制可解释性的研究

BriefGPT - AI 论文速递 ·

本研究解决了传统用户画像方法无法充分考虑用户利益的动态性和短期与长期偏好之间的相互作用的问题。我们提出了一种利用大型语言模型生成用户交互历史的自然语言总结的新方法，能够有效建模时间用户偏好，并提供可解释的文本画像。实验证明，该方法不仅提高了推荐准确性，还增强了推荐系统的透明性，为用户提供了更清晰的推荐理由。

基于大型语言模型的可解释性时间用户画像研究

BriefGPT - AI 论文速递 ·