基于PyFlink的空气质量数据分析

基于PyFlink的空气质量数据分析

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

本文介绍了使用Python和Flink工具处理气象站点采集的空气质量数据的方法,计算全国多个城市的8小时移动平均空气质量信息,并进行数据可视化,更新空气质量榜单。数据集使用南京信息工程大学数学建模赛题附件1的2019年数据,经过数据清洗后上传到HDFS。

🎯

关键要点

  • 本文介绍了使用Python和Flink处理气象站点采集的空气质量数据的方法。
  • 计算全国多个城市的8小时移动平均空气质量信息,包括AQI、PM2.5、SO2等。
  • 更新空气质量榜单并进行数据可视化。
  • 数据集使用南京信息工程大学2019年的数据,经过数据清洗后上传到HDFS。
  • 操作环境为Ubuntu18.04,Flink1.17.0,Hadoop 3.3.5,Python3.8.10等。
  • 数据清洗过程中使用Pandas读取csv文件,去重并填充缺失值。
  • 最终整合得到data2019_dist.csv文件,并上传至HDFS。
➡️

继续阅读