基于Python和Flink的人体肥胖数据分析

基于Python和Flink的人体肥胖数据分析

💡 原文中文,约55400字,阅读约需132分钟。
📝

内容提要

该文章介绍了使用Flink对肥胖数据集进行数据处理和分析的过程,包括清洗预处理和统计分析。使用Flink进行数据分析,包括性别、年龄、身高、体重和肥胖程度的分布情况,以及不同肥胖类型人群的耗水量、运动频率、电子设备使用时间和食用蔬菜频次等。最后使用Python和plotly+matplotlib进行可视化展示。

🎯

关键要点

  • 文章介绍了使用Flink对肥胖数据集进行数据处理和分析的过程。
  • 数据集来源于kaggle网站,包含20758项数据,字段包括性别、年龄、身高、体重等。
  • 使用pandas进行数据清洗,去除重复行和缺失值,进行数据格式转换。
  • 将数据集存放至分布式文件系统HDFS中,启动HDFS并上传预处理后的数据集。
  • 使用Flink加载数据集并进行统计分析,包括性别、年龄、身高、体重和肥胖程度的分布情况。
  • 统计不同肥胖程度人群的平均每日耗水量、运动频率、电子设备使用时间和食用蔬菜频次。
  • 分析有无家族肥胖历史人群的占比情况,及其对肥胖类型的影响。
  • 使用Python和plotly+matplotlib进行可视化展示,展示性别、年龄、肥胖程度、身高和体重的分布情况。
  • 可视化结果显示男女比例均衡,年龄多集中于30岁以下,肥胖程度分布较均匀。
  • 分析结果表明,饮水量、运动频率和食用蔬菜频次与肥胖程度存在一定关系。
➡️

继续阅读