💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
本案例使用阿里天池大赛提供的钻石价格数据集,通过pandas进行数据清洗,保存到HDFS中,然后使用PyFlink进行数据分析,最后使用matplotlib和seaborn进行可视化。数据集包含53940行,每行包含十个指标。数据清洗包括读取数据、删除缺失值和重复行、处理价格变量、修改列名。数据处理包括探究特征值之间的关系、计算不同区间中钻石每克拉的均价和总数、探究颜色对价格和克拉的影响、探究价格对品质的影响。数据可视化包括绘制热力图、特征值成对散点图、Depth和Table与价格的关系、Color对价格和克拉的影响、价格对品质的影响的饼图。
🎯
关键要点
-
本案例使用阿里天池大赛提供的钻石价格数据集进行分析。
-
数据集包含53940行,每行包含十个指标。
-
数据清洗包括读取数据、删除缺失值和重复行、处理价格变量、修改列名。
-
数据处理探究特征值之间的关系,计算不同区间中钻石每克拉的均价和总数。
-
探究颜色对价格和克拉的影响,以及价格对品质的影响。
-
数据可视化包括绘制热力图、特征值成对散点图、直方图和饼图。
-
实验环境包括Linux、Hadoop、Flink和Python等。
-
数据上传至HDFS后进行分析,使用PyFlink进行数据处理。
-
通过计算钻石的体积、将字符串分类转为数字分类来研究特征值之间的关系。
-
分析Depth和Table与价格的关系,保存相关数据为CSV文件。
-
探究Color对钻石Price和Carat的影响,保存数据为CSV文件。
-
根据价格筛选数据并计算不同价格区间内不同品质钻石的数量。
-
数据可视化展示了特征值之间的关系,揭示了价格与品质的关联。
➡️