本研究提出了一种新型可解释AI方法,通过扩展决策谓词图,全面分析数据预处理对孤立森林模型性能和偏差的影响。该方法引入内点-外点传播分数,增强了模型的可解释性,并揭示了特征在异常值识别中的贡献。
本文探讨了功能数据分析(FDA)中的多种方法,包括孤立森林、非线性流形学习和可解释机器学习。研究提出了新算法和特征选择策略,以提高模型的可解释性和预测准确性,特别是在医疗领域的应用中,强调了特征图的构建和聚类性能的提升。
本研究将孤立森林方法扩展至函数数据,以提高复杂基础设施的异常检测准确性。提出了多种基于自监督学习和主动学习的异常检测框架,应用于射电望远镜等领域,表现优于现有技术。
本文介绍了常见的异常值检测方法,包括箱型图、3σ原则、Z-score法、聚类检测、孤立森林和局部异常因子。其中,孤立森林和局部异常因子是基于机器学习的方法,可以自动识别异常值。直接删除异常值可能会损失大量训练样本,可以用统计值填充或适当控制阈值的区间来减少异常样本。
该文介绍了对孤立森林方法的两项改进,包括评分函数的推广和基于孤立树叶节点相关的超体积的评分方法的替换。作者在生成数据和34个基准数据集上进行了评估,发现这两种变体都有显著的改进。
完成下面两步后,将自动完成登录并继续当前操作。