💡
原文英文,约800词,阅读约需3分钟。
📝
内容提要
垃圾信息在现代通信中持续存在。本文利用SMS垃圾信息数据集,通过数据挖掘技术分析和预测垃圾信息模式。采用逻辑回归进行分类,K均值聚类探索数据结构。结果显示,逻辑回归的准确率为89%,但召回率较低,表明模型在识别垃圾信息时存在漏检。未来可通过集成方法和深度学习提高召回率。
🎯
关键要点
- 垃圾信息在现代通信中是一个持续存在的问题,影响用户体验。
- 本文利用SMS垃圾信息数据集,通过数据挖掘技术分析和预测垃圾信息模式。
- 采用逻辑回归进行分类,K均值聚类探索数据结构。
- 数据集来自UCI机器学习库,包含5574条标记为垃圾信息或正常信息的SMS消息。
- 数据预处理包括小写化、去除标点符号、分词、去除停用词和词干提取。
- 探索性数据分析显示垃圾信息与正常信息的数量不平衡,且垃圾信息长度分布特征明显。
- 垃圾信息常包含“免费”、“赢”、“呼叫”和“紧急”等词汇。
- 逻辑回归模型的准确率为89%,但召回率较低,表明漏检现象严重。
- K均值聚类分析显示垃圾信息和正常信息自然分为两个类别。
- 未来可通过集成方法和深度学习提高模型的召回率,以更好地识别垃圾信息。
➡️