💡
原文中文,约15100字,阅读约需36分钟。
📝
内容提要
本文介绍了使用Flink框架和Python实现的全球疫苗接种数据处理案例,包括数据分析任务和可视化方法。案例使用Kaggle数据集,在Ubuntu虚拟机上完成数据处理,并使用plotly包进行数据可视化。文章还介绍了实验环境和数据集,并分享了个人对Flink的学习心得。
🎯
关键要点
- 本文介绍了使用Flink框架和Python实现的全球疫苗接种数据处理案例。
- 案例使用Kaggle数据集,在Ubuntu虚拟机上完成数据处理,并使用plotly包进行数据可视化。
- 实验中完成了多个数据分析任务,包括分析疫苗接种人数、接种方案和全球疫苗接种进程等。
- 数据集包括新冠病毒全球感染情况和疫苗接种情况,记录了全球多个国家的相关数据。
- 数据预处理使用Python pandas,主要步骤包括移除多余列、日期格式对齐和填充空值。
- 数据上传至HDFS,使用PyFlink进行数据处理,支持从HDFS读取和写入数据。
- 实验中实现了六个数据处理任务,使用Flink的Datastream API和Table API。
- 可视化部分使用Python的plotly包,展示了疫苗接种情况和新增案例等数据。
- 个人心得中提到对Flink的学习过程和遇到的问题,强调了现代医学的力量和国家的凝聚力。
➡️