基于Spark的NBA球员数据分析
💡
原文中文,约4500字,阅读约需11分钟。
📝
内容提要
本文介绍了使用Python和Spark对NBA球员数据进行处理和分析的实验,包括环境设置、数据集清洗和处理,以及数据保存。
🎯
关键要点
- 本文介绍了使用Python和Spark对NBA球员数据进行处理和分析的实验。
- 实验环境包括Linux、Hadoop、Python、Spark、Jupyter Notebook等。
- 数据集来自Kaggle的NBA Players stats(2023 season),包含539条数据和多个字段。
- 数据集字段包括球员名字、位置、球队、年龄、比赛场次、得分等。
- 数据集处理包括查看基本信息、数据清洗、处理空值和重复值、处理异常值。
- 标准化字段名称,添加新特征如每分钟得分,并保存清洗后的数据。
- 使用HDFS存储文件,启动Hadoop并创建目标目录。
➡️