小红花·文摘

本文通过推导一种用于从不平衡数据中训练分类器的集成学习方法，比较了与其他标准方法在从二元混合数据中训练线性分类器的情况下学习不平衡数据的性能。结果表明，增加多数类别的大小可以提高性能，特别是当少数类别的大小较小时。与之相反，US 的性能不随多数类别的大小变化而变化，而 SW 的性能则随不平衡程度的增加而降低，表明集成和对参数的直接正则化之间存在固有差异。