小红花·文摘

为什么大多数人错误使用SMOTE，以及如何正确使用它

KDnuggets ·

本研究提出了连续公平SMOTE（CFSMOTE），旨在解决在线流数据中的机器学习公平性和类不平衡问题。CFSMOTE通过情况测试和平衡相关组进行过采样，实验结果表明其在公平性指标上优于传统方法，同时保持良好性能。

Continuous Fair SMOTE -- Fairness-Aware Stream Learning for Imbalanced Data

BriefGPT - AI 论文速递 ·

本研究提出了一种新技术——简约单纯形SMOTE，旨在克服现有SMOTE在不平衡学习中的局限性。该方法通过几何邻域采样生成合成点，优化了少数类与多数类的决策边界。实验结果显示其优于多种几何采样方法，并可与现有SMOTE扩展结合使用。

简约单纯形SMOTE：解决不平衡学习问题的过采样方案

BriefGPT - AI 论文速递 ·

掌握不平衡数据集：SMOTE初学者指南🧑‍💻

DEV Community ·

分类算法是监督学习的重要方法，用于将数据分为不同类别。逻辑回归虽然名字中有“回归”，但实际上是分类算法。文章介绍了数据准备和处理过程，强调数据平衡的重要性，并通过SMOTE技术解决数据不平衡问题。最后，文章总结了分类算法在数据科学中的重要性，为模型构建奠定基础。

从零开始学机器学习——了解分类算法 - 努力的小雨

努力的小雨 ·

本文讲解如何用Python和机器学习构建简单的欺诈检测系统。利用scikit-learn和pandas处理金融交易数据，解决数据不平衡问题，使用SMOTE过采样。然后用随机森林分类器建模，并通过准确率、精确率、召回率和F1分数评估性能。建议尝试不同算法和特征工程以改进模型。

使用Python和机器学习构建欺诈检测系统

DEV Community ·

本文介绍了多种处理不平衡数据集的分类器构建方法，如量子 SMOTE、k-means SMOTE 和 BSGAN。这些方法通过结合过采样和欠采样，显著提升了分类性能，尤其在高度不平衡的数据集上。实验结果表明，这些新方法能有效提高分类准确性。

几何视角下的最小包络球综合少数类过采样技术

BriefGPT - AI 论文速递 ·

本文提出了一种基于联邦学习的入侵检测框架，利用CIC-IDS 2017数据集实现去中心化机器学习，并通过SMOTE技术处理类别不平衡，以优化模型性能。研究表明，该框架在入侵检测中表现优异，同时保护用户隐私。此外，文章还探讨了联邦学习在车联网中的应用，分析了数据安全和模型性能的提升。

5G 及其后续 V2X 网络中的零日攻击检测的联邦学习

BriefGPT - AI 论文速递 ·

利用 XGBoost 和 LightGBM 等机器学习模型，通过应用先进的机器学习模型和数据处理技术，本研究开发了一种更准确、更稳健的支付安全保护模型，有效提升了交易欺诈预防的能力。

高级支付安全系统：XGBoost、CatBoost 和 SMOTE 集成

BriefGPT - AI 论文速递 ·

通过使用 Variational Autoencoders (VAE) 来增强 SMOTE 算法，近期对生成神经网络模型的研究扩展了数据增广方法。在研究中发现，相对于传统模型的 SMOTE...

融合条件变分自编码器的 SMOTE 改进方法用于数据自适应噪声过滤

BriefGPT - AI 论文速递 ·

本文提出了量子SMOTE方法，通过使用量子计算技术解决机器学习数据集中的类别不平衡问题。该方法利用量子过程生成合成数据点，使得少数类数据点能够产生合成实例。算法引入了旋转角度、少数类比例和分割因子等超参数，使合成数据生成过程具备更大的控制性和定制化。在TelecomChurn数据集上与随机森林和逻辑回归进行比较评估，验证了该方法在不同比例的合成数据下的影响。

合成少数类过采样技术（SMOTE）的量子方法

BriefGPT - AI 论文速递 ·

本文提出了一种基于聚类的过采样方法，通过生成新的少数派样本来改善类别不平衡数据上的学习。实验结果表明该方法在评估指标上表现更好。

在核空间中基于边缘化少数群体的 SMOTE 解决不平衡数据中的分类歧视

BriefGPT - AI 论文速递 ·

SMOTE是处理不平衡数据集的常见重平衡策略，能通过复制原始少数样本来重新生成原始分布。新的SMOTE相关策略与最先进的重平衡程序进行比较，只有在数据集高度不平衡时才需要重平衡策略。

SMOTE 的理论和实验研究：再平衡策略的限制和比较

BriefGPT - AI 论文速递 ·

本文利用DNA位点级别上的SNPs数据，从数据科学的视角探讨了冠状动脉疾病的预测。研究中介绍了两种常用的监督学习算法和二维降维技术，进行了误差比较分析，结果显示随机森林预测模型的准确率和ROC曲线面积优于传统方法。

冠状动脉疾病早期诊断 AI 框架：边界 SMOTE、自编码器和卷积神经网络集成方法

BriefGPT - AI 论文速递 ·

通过增强传统的SMOTE方法并与Mixup结合，提出了一种统一的深度学习数据增强框架。实验结果表明该方法在深度不平衡分类任务上具有最先进的性能，并且在极度不平衡数据上也达到了优异的效果。

从 SMOTE 到 Mixup 的深度不平衡分类

BriefGPT - AI 论文速递 ·

弗吉尼亚行为健康和发展服务部的CISO和研究员分享了使用人工智能的方法来快速合成“去识别”数据的议题。他们提出了三种不同的方法：SMOTE、VAEs和GAN。合成数据可以用于增强真实数据集的规模和多样性，提高机器学习模型的性能和泛化能力。但是，合成数据的生成过程可能带有一定的“偏见”，需要全面考虑利弊。为方便使用，列举了常用的数据合成工具。

洞见RSA 2023 | 利用AI合成去识别化数据

绿盟科技技术博客 ·