本文介绍了处理类别不平衡数据的五种可靠策略:重新采样技术、算法集成方法、调整类别权重、选择适当的评估指标和生成合成样本。作者建议结合多种方法以获得最佳结果。
本文提出了一种基于聚类的过采样方法,通过生成新的少数派样本来改善类别不平衡数据上的学习。实验结果表明该方法在评估指标上表现更好。
完成下面两步后,将自动完成登录并继续当前操作。