基于PyFlink的钻石价格数据处理与分析
原文中文,约3100字,阅读约需8分钟。发表于: 。【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。 作者:厦门大学计算机科学与技术系2023级研究生 […]
本案例使用阿里天池大赛提供的钻石价格数据集,通过pandas进行数据清洗,保存到HDFS中,然后使用PyFlink进行数据分析,最后使用matplotlib和seaborn进行可视化。数据集包含53940行,每行包含十个指标。数据清洗包括读取数据、删除缺失值和重复行、处理价格变量、修改列名。数据处理包括探究特征值之间的关系、计算不同区间中钻石每克拉的均价和总数、探究颜色对价格和克拉的影响、探究价格对品质的影响。数据可视化包括绘制热力图、特征值成对散点图、Depth和Table与价格的关系、Color对价格和克拉的影响、价格对品质的影响的饼图。