💡
原文中文,约55400字,阅读约需132分钟。
📝
内容提要
该文章介绍了使用Flink对肥胖数据集进行数据处理和分析的过程,包括清洗预处理和统计分析。使用Flink进行数据分析,包括性别、年龄、身高、体重和肥胖程度的分布情况,以及不同肥胖类型人群的耗水量、运动频率、电子设备使用时间和食用蔬菜频次等。最后使用Python和plotly+matplotlib进行可视化展示。
🎯
关键要点
- 文章介绍了使用Flink对肥胖数据集进行数据处理和分析的过程。
- 数据集来源于kaggle网站,包含20758项数据,字段包括性别、年龄、身高、体重等。
- 使用pandas进行数据清洗,去除重复行和缺失值,进行数据格式转换。
- 将数据集存放至分布式文件系统HDFS中,启动HDFS并上传预处理后的数据集。
- 使用Flink加载数据集并进行统计分析,包括性别、年龄、身高、体重和肥胖程度的分布情况。
- 统计不同肥胖程度人群的平均每日耗水量、运动频率、电子设备使用时间和食用蔬菜频次。
- 分析有无家族肥胖历史人群的占比情况,及其对肥胖类型的影响。
- 使用Python和plotly+matplotlib进行可视化展示,展示性别、年龄、肥胖程度、身高和体重的分布情况。
- 可视化结果显示男女比例均衡,年龄多集中于30岁以下,肥胖程度分布较均匀。
- 分析结果表明,饮水量、运动频率和食用蔬菜频次与肥胖程度存在一定关系。
❓
延伸问答
如何使用Flink对肥胖数据集进行分析?
使用Flink加载数据集后,可以进行统计分析,包括性别、年龄、身高、体重和肥胖程度的分布情况。
数据清洗的步骤有哪些?
数据清洗包括去除重复行、去除含有缺失值的行、数据格式转换和异常值过滤等步骤。
该数据集包含哪些字段?
数据集包含性别、年龄、身高、体重、家族肥胖史、饮食习惯、体力活动等字段,共20758项数据。
分析结果显示肥胖程度与哪些因素有关?
分析结果表明,饮水量、运动频率和食用蔬菜频次与肥胖程度存在一定关系。
如何可视化分析结果?
使用Python和plotly、matplotlib进行可视化展示,展示性别、年龄、肥胖程度等的分布情况。
数据集的来源是什么?
数据集来源于Kaggle网站,文件名为obesity_level.csv。
➡️