💡
原文中文,约19700字,阅读约需47分钟。
📝
内容提要
本实验使用Java和Python对1980-2020年的电子游戏销售数据进行清洗、预处理和分析。使用Flink统计每个游戏平台和出版商的游戏数量和销售额,计算不同游戏类型的数量和平均销售额,统计每年发布的游戏数量和总销售额。最后使用Python的matplotlib库进行可视化展示,分析不同地区的游戏市场份额、出版商销售额情况、游戏类型的受欢迎程度、游戏数量和销售额的发展趋势。
🎯
关键要点
- 实验使用Java和Python对1980-2020年的电子游戏销售数据进行清洗、预处理和分析。
- 使用Flink统计每个平台和出版商的游戏数量和销售额,计算不同游戏类型的数量和平均销售额。
- 统计每年发布的游戏数量和总销售额,最后使用Python的matplotlib库进行可视化展示。
- 实验环境包括Ubuntu 16.04、Java、Python 3.8.0、Flink、Hadoop等。
- 数据集包含销量超过100,000份的视频游戏列表,字段包括排名、名称、平台、年份、类型、发行商和各地区销量。
- 数据预处理使用Jupyter Notebook,去除空值和重复值,并将Year字段改为整数类型。
- 数据处理分为多个任务,包括统计游戏平台和出版商的游戏数量和销售额,计算游戏类型的数量及平均销售额等。
- 使用Flink读取HDFS上的数据文件,并进行数据统计分析,输出结果为CSV文件。
- 可视化结果包括各游戏平台的市场份额、出版商销售额情况、游戏类型的受欢迎程度等。
- 分析显示主流平台如PS2、X360、PS3等占据大部分市场份额,Nintendo是销售额最高的出版商。
- 游戏数量和销售额的趋势显示出游戏产业的快速发展,特别是在1994年至2008年间。
- 不同地区的销售额分析显示北美市场贡献最大,欧洲和日本紧随其后。
- 每年总销售额最高的游戏通过词云展示,显示出流行游戏的名字。
❓
延伸问答
实验中使用了哪些编程语言和工具进行数据处理?
实验使用了Java和Python进行数据处理,工具包括Jupyter Notebook、Idea和Pycharm。
Flink在数据处理中的具体应用是什么?
Flink用于统计每个平台和出版商的游戏数量和销售额,并进行数据分析。
数据预处理的主要步骤有哪些?
数据预处理包括去除空值和重复值,将Year字段改为整数类型,并将处理后的数据写入CSV文件。
实验结果的可视化使用了哪些方法?
实验结果可视化使用了matplotlib库,绘制了柱状图、折线图、气泡图和饼图等。
哪个地区的游戏销售额贡献最大?
北美市场的销售额贡献最大,其次是欧洲和日本。
实验分析显示哪些游戏平台占据了市场份额?
主流平台如PS2、X360、PS3等占据大部分市场份额。
➡️