Anjhon’s Blog ·

机器学习样本不平衡问题

💡 原文中文，约6000字，阅读约需15分钟。

📝

内容提要

本文介绍了解决样本不平衡问题的常用方法，包括权重法和采样法。评估指标包括精确率、召回率、F1值、ROC曲线和PR曲线。ROC曲线适用于整体性能评估，PR曲线适用于正例预测评估。采样法可使用随机欠采样和SMOTE算法。若模型未提升，需检查数据获取过程是否存在问题。

🎯

关键要点

样本不平衡问题在生产过程中普遍存在，处理不当会影响模型效果。
样本不平衡是指各类别样本比例悬殊，通常在分类问题中需要处理。
没有固定的比例阈值来定义样本不平衡，常用的标准是样本数量少于总样本的10%。
评估指标包括精确率、召回率、F1值、ROC曲线和PR曲线。
ROC曲线适用于整体性能评估，PR曲线适用于正例预测评估。
权重法通过为每个类别加权来处理样本不平衡，样本数多的类别权重低，反之则高。
采样法包括随机欠采样和SMOTE算法，前者从多数类中随机剔除样本，后者通过插值生成新样本。
随机过采样已不常用，因其可能导致过拟合。
SMOTE通过在少数类样本之间插值生成新样本，建议与随机欠采样结合使用。
如果模型未提升，需检查数据获取过程或数据本身是否适合建模。

🏷️

标签

召回率机器学习权重法样本不平衡问题精确率采样法

➡️

继续阅读

法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
升级UEFI CA 2023不容易在微软交流会上诸多IT管理员反馈更新证书存在问题
#系统资讯升级 UEFI CA 2023 不容易，在微软交流会上诸多 IT 管理员反馈证书迁移问题。UEFI CA 2011 证书已经在 6 月过期，微...
开源私有云软件Nextcloud遭到黑客攻击网站被黑但开发商谎称基础架构问题
#安全资讯开源私有云软件 Nextcloud 遭到黑客攻击，网站被黑但开发商谎称是基础设施架构问题。这件事发生在昨天早晨，当时 Nextcloud 被重...
基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
苹果更新TestFlight应用对于参与大量测试的玩家现在可以使用搜索功能
# 软件资讯苹果更新 TestFlight 应用，对于参与大量测试的玩家来说，现在可以使用底部的搜索框快速找到应用。为避免误解所以需要说明，搜索功能仅可...
我在WAIC 2026看见的十大趋势
没有人因此热情减退