DEV Community ·

利用数据挖掘技术分析SMS垃圾信息数据集中的模式

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

垃圾信息在现代通信中持续存在。本文利用SMS垃圾信息数据集，通过数据挖掘技术分析和预测垃圾信息模式。采用逻辑回归进行分类，K均值聚类探索数据结构。结果显示，逻辑回归的准确率为89%，但召回率较低，表明模型在识别垃圾信息时存在漏检。未来可通过集成方法和深度学习提高召回率。

🎯

🔎

垃圾信息不仅影响用户的通信体验，还可能导致信息安全风险。随着SMS诈骗的增加，如何有效识别和过滤垃圾信息成为了一个重要课题。本文通过数据挖掘技术分析垃圾信息模式，为未来的防范措施提供了数据支持。

逻辑回归模型虽然在准确率上达到了89%，但其低召回率表明在实际应用中可能会漏检大量垃圾信息。这提示我们在选择模型时，不仅要关注准确率，还需综合考虑召回率，以提高垃圾信息的识别能力。

数据集中的垃圾信息与正常信息数量不平衡，且垃圾信息的长度分布特征明显。预处理步骤如去除停用词和词干提取，有助于提高模型的训练效果。理解这些特征对于后续模型的优化至关重要。

❓

垃圾信息在现代通信中持续存在，影响用户体验。

本文采用逻辑回归进行分类和K均值聚类探索数据结构。

逻辑回归模型的准确率为89%，但召回率较低。

主要步骤包括小写化、去除标点符号、分词、去除停用词和词干提取。

垃圾信息的数量少于正常信息，显示出明显的不平衡。

可以通过集成方法和深度学习来提高模型的召回率。

🏷️