FreeBuf网络安全行业门户 ·

数据挖掘-利用多个机器学习模型实现泰坦尼克号生存预测

💡 原文中文，约16000字，阅读约需38分钟。

📝

内容提要

本文介绍了泰坦尼克号生存预测的数据预处理过程，强调数据处理的重要性。通过分析特征与生存率的关系，提取新特征并进行数据清洗，最终构建预测模型。

🎯

🔎

在泰坦尼克号生存预测中，数据预处理是模型成功的关键。通过清洗数据、填补缺失值和提取新特征，能够显著提高模型的预测准确性。特别是特征选择和转换，直接影响模型的表现。

文章中提到的特征工程方法，如提取称呼和家庭大小特征，展示了如何通过创新思维提升模型性能。这些新特征能够更好地反映乘客的生存概率，值得在其他数据分析项目中借鉴。

在多种机器学习模型中，随机森林表现最佳，准确率最高。这表明在处理复杂数据时，集成学习方法往往能提供更好的结果。读者在选择模型时，应考虑数据特性和模型的适用性。

❓

数据预处理是泰坦尼克号生存预测的关键，决定了模型的表现和准确性。

船舱等级（Pclass）和性别（Sex）被认为是重要特征，影响生存率。

使用众数填补登船港口（Embarked）的缺失值，并用中位数填补票价（Fare）的缺失值。

通过正则表达式从姓名中提取称呼，并将稀少的称呼合并为一个类别。

使用了逻辑回归、支持向量机、KNN、朴素贝叶斯、决策树和随机森林等模型。

最终选择了随机森林模型，因为其准确率最高。

🏷️