💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
本文介绍了常见的异常值检测方法,包括箱型图、3σ原则、Z-score法、聚类检测、孤立森林和局部异常因子。其中,孤立森林和局部异常因子是基于机器学习的方法,可以自动识别异常值。直接删除异常值可能会损失大量训练样本,可以用统计值填充或适当控制阈值的区间来减少异常样本。
🎯
关键要点
- 异常值可能在数据采集、记录和提取中产生,影响模型学习,需要特殊处理。
- 异常值是远离其他数据点的值,可能导致统计分析结果扭曲。
- 箱型图通过计算上下限来检测异常值,使用1.5倍四分位距离的特性。
- 3σ原则通过设置均值上下限来识别异常值,约68.2%的数据在均值的一倍标准差内。
- Z-score法根据观测值与平均值的距离进行分类,设定阈值筛选样本。
- 聚类检测使用聚类算法识别样本稀少的簇作为异常值,DBSCAN方法常用于此。
- 孤立森林通过随机选择特征和分割规则来检测异常值,假设离群值是少数样本。
- 局部异常因子LOF计算数据点相对于邻居的局部密度偏差,密度低的点视为异常值。
- 直接删除异常值可能损失大量训练样本,建议控制阈值或用统计值填充。
➡️