DEV Community ·

基于机器学习的糖尿病预测应用

💡 原文英文，约1900词，阅读约需7分钟。

📝

内容提要

糖尿病分为1型和2型，影响身体处理糖分的方式。项目开发了一款应用，利用Kaggle数据集，通过逻辑回归和随机森林模型进行分析，最终选择准确率较高的随机森林模型，并使用Streamlit构建应用，帮助用户预测糖尿病风险。

🎯

🔎

糖尿病主要分为1型和2型，1型糖尿病通常在早期发展，患者完全不产生胰岛素；而2型糖尿病则与生活方式密切相关，身体可能产生不足的胰岛素或无法有效利用。了解这两种类型的区别，有助于用户更好地理解应用的预测结果及其健康管理的重要性。

在本项目中，随机森林模型的表现优于逻辑回归，训练准确率达到93.16%，测试准确率为76.62%。尽管随机森林模型在识别糖尿病患者方面有所改善，但仍存在一定的偏向性，主要倾向于非糖尿病预测。用户在使用应用时应注意这一点，尤其是在高风险人群中。

数据处理是机器学习项目成功的关键。文章中提到对缺失值和零值的处理，采用均值和中位数替换不合理的零值。这一过程确保了模型训练的数据质量，从而提高了预测的准确性。用户在使用应用时，理解数据处理的背景可以帮助他们更好地解读预测结果。

❓

糖尿病分为1型和2型。1型糖尿病是身体完全不产生胰岛素，通常在生命早期发展；2型糖尿病是身体产生的胰岛素不足或无法正常使用，通常与生活方式因素有关。

该应用利用Kaggle数据集，通过逻辑回归和随机森林模型进行分析，最终选择准确率较高的随机森林模型进行糖尿病风险预测。

随机森林模型在训练集上的准确率为93.16%，测试集为76.62%，显示出较好的预测能力。

数据处理包括检查缺失值并确认没有缺失值，处理零值时，正常分布的列用均值替换，偏态分布的列用中位数替换。

应用程序提供用户友好的界面，用户可以输入医疗信息进行糖尿病预测，并显示预测结果和健康建议。

训练好的随机森林模型和标准缩放器被保存，以便在应用中使用，用户输入信息后，模型会先缩放输入再进行预测。

🏷️