💡
原文中文,约19700字,阅读约需47分钟。
📝
内容提要
本实验使用Java和Python对1980-2020年的电子游戏销售数据进行清洗、预处理和分析。使用Flink统计每个游戏平台和出版商的游戏数量和销售额,计算不同游戏类型的数量和平均销售额,统计每年发布的游戏数量和总销售额。最后使用Python的matplotlib库进行可视化展示,分析不同地区的游戏市场份额、出版商销售额情况、游戏类型的受欢迎程度、游戏数量和销售额的发展趋势。
🎯
关键要点
- 实验使用Java和Python对1980-2020年的电子游戏销售数据进行清洗、预处理和分析。
- 使用Flink统计每个平台和出版商的游戏数量和销售额,计算不同游戏类型的数量和平均销售额。
- 统计每年发布的游戏数量和总销售额,最后使用Python的matplotlib库进行可视化展示。
- 实验环境包括Ubuntu 16.04、Java、Python 3.8.0、Flink、Hadoop等。
- 数据集包含销量超过100,000份的视频游戏列表,字段包括排名、名称、平台、年份、类型、发行商和各地区销量。
- 数据预处理使用Jupyter Notebook,去除空值和重复值,并将Year字段改为整数类型。
- 数据处理分为多个任务,包括统计游戏平台和出版商的游戏数量和销售额,计算游戏类型的数量及平均销售额等。
- 使用Flink读取HDFS上的数据文件,并进行数据统计分析,输出结果为CSV文件。
- 可视化结果包括各游戏平台的市场份额、出版商销售额情况、游戏类型的受欢迎程度等。
- 分析显示主流平台如PS2、X360、PS3等占据大部分市场份额,Nintendo是销售额最高的出版商。
- 游戏数量和销售额的趋势显示出游戏产业的快速发展,特别是在1994年至2008年间。
- 不同地区的销售额分析显示北美市场贡献最大,欧洲和日本紧随其后。
- 每年总销售额最高的游戏通过词云展示,显示出流行游戏的名字。
➡️