基于Flink的电子游戏数据处理与分析

基于Flink的电子游戏数据处理与分析

💡 原文中文,约19700字,阅读约需47分钟。
📝

内容提要

本实验使用Java和Python对1980-2020年的电子游戏销售数据进行清洗、预处理和分析。使用Flink统计每个游戏平台和出版商的游戏数量和销售额,计算不同游戏类型的数量和平均销售额,统计每年发布的游戏数量和总销售额。最后使用Python的matplotlib库进行可视化展示,分析不同地区的游戏市场份额、出版商销售额情况、游戏类型的受欢迎程度、游戏数量和销售额的发展趋势。

🎯

关键要点

  • 实验使用Java和Python对1980-2020年的电子游戏销售数据进行清洗、预处理和分析。
  • 使用Flink统计每个平台和出版商的游戏数量和销售额,计算不同游戏类型的数量和平均销售额。
  • 统计每年发布的游戏数量和总销售额,最后使用Python的matplotlib库进行可视化展示。
  • 实验环境包括Ubuntu 16.04、Java、Python 3.8.0、Flink、Hadoop等。
  • 数据集包含销量超过100,000份的视频游戏列表,字段包括排名、名称、平台、年份、类型、发行商和各地区销量。
  • 数据预处理使用Jupyter Notebook,去除空值和重复值,并将Year字段改为整数类型。
  • 数据处理分为多个任务,包括统计游戏平台和出版商的游戏数量和销售额,计算游戏类型的数量及平均销售额等。
  • 使用Flink读取HDFS上的数据文件,并进行数据统计分析,输出结果为CSV文件。
  • 可视化结果包括各游戏平台的市场份额、出版商销售额情况、游戏类型的受欢迎程度等。
  • 分析显示主流平台如PS2、X360、PS3等占据大部分市场份额,Nintendo是销售额最高的出版商。
  • 游戏数量和销售额的趋势显示出游戏产业的快速发展,特别是在1994年至2008年间。
  • 不同地区的销售额分析显示北美市场贡献最大,欧洲和日本紧随其后。
  • 每年总销售额最高的游戏通过词云展示,显示出流行游戏的名字。
➡️

继续阅读