Anjhon’s Blog ·

机器学习异常值处理

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

本文介绍了常见的异常值检测方法，包括箱型图、3σ原则、Z-score法、聚类检测、孤立森林和局部异常因子。其中，孤立森林和局部异常因子是基于机器学习的方法，可以自动识别异常值。直接删除异常值可能会损失大量训练样本，可以用统计值填充或适当控制阈值的区间来减少异常样本。

🎯

关键要点

异常值可能在数据采集、记录和提取中产生，影响模型学习，需要特殊处理。
异常值是远离其他数据点的值，可能导致统计分析结果扭曲。
箱型图通过计算上下限来检测异常值，使用1.5倍四分位距离的特性。
3σ原则通过设置均值上下限来识别异常值，约68.2%的数据在均值的一倍标准差内。
Z-score法根据观测值与平均值的距离进行分类，设定阈值筛选样本。
聚类检测使用聚类算法识别样本稀少的簇作为异常值，DBSCAN方法常用于此。
孤立森林通过随机选择特征和分割规则来检测异常值，假设离群值是少数样本。
局部异常因子LOF计算数据点相对于邻居的局部密度偏差，密度低的点视为异常值。
直接删除异常值可能损失大量训练样本，建议控制阈值或用统计值填充。

🏷️

标签

孤立森林局部异常因子异常值检测机器学习箱型图

➡️

继续阅读

VideoProc 年中4折：N合一超强下载、图像增强、视频处理，工具箱全家桶一次带走
你的赛博头痛是哪一种？想保存 YouTube 视频或者 B 站教程，结果下载器跑到一半直接报错，或者干脆就动不了。在ins上扒了一张很满意的图，结果分辨...
Peak Design’s modular Field Bracket has a finder tag built-in
I am a very clumsy man. So clumsy, that I have AirTags hanging off practicall...
Nearly every Kindle is steeply discounted at Best Buy
If you’ve been thinking about picking up a Kindle before school starts, or fo...
Single-pass AI code isn’t dead, but “high-reasoning” is the next frontier
Ask an AI model what comes next after “bacon-double”, and the return is fairl...
Apple’s rumored ‘Upgrade’ program brings lease-to-own pricing for iPhones, Macs, and iPads
As component and RAM shortages drive prices higher, Apple is reportedly launc...
Microsoft is building an AI stack it doesn’t fully own — on purpose
Microsoft and Mistral are deepening their partnership with a multibillion-dol...