💡
原文中文,约1200字,阅读约需3分钟。
📝
内容提要
本文介绍了使用Python和Flink工具处理气象站点采集的空气质量数据的方法,计算全国多个城市的8小时移动平均空气质量信息,并进行数据可视化,更新空气质量榜单。数据集使用南京信息工程大学数学建模赛题附件1的2019年数据,经过数据清洗后上传到HDFS。
🎯
关键要点
- 本文介绍了使用Python和Flink处理气象站点采集的空气质量数据的方法。
- 计算全国多个城市的8小时移动平均空气质量信息,包括AQI、PM2.5、SO2等。
- 更新空气质量榜单并进行数据可视化。
- 数据集使用南京信息工程大学2019年的数据,经过数据清洗后上传到HDFS。
- 操作环境为Ubuntu18.04,Flink1.17.0,Hadoop 3.3.5,Python3.8.10等。
- 数据清洗过程中使用Pandas读取csv文件,去重并填充缺失值。
- 最终整合得到data2019_dist.csv文件,并上传至HDFS。
➡️