厦大数据库实验室博客 ·

基于Spark的1996-2022多赛季NBA球员数据分析

💡 原文中文，约22300字，阅读约需54分钟。

📝

内容提要

本文介绍了基于Python和Spark的NBA球员数据分析项目，包括实验环境和数据准备步骤，使用Spark进行数据分析，以及使用Plotly库进行数据可视化和Flask搭建本地Web服务器展示可视化结果。

🎯

❓

文章使用了Python和Spark进行NBA球员数据分析，结合Flask搭建Web服务器和Plotly进行数据可视化。

数据集包含球员姓名、球队缩写、年龄、身高、体重、大学、出生国家、选秀年份、比赛次数、场均得分等21个属性。

文章中使用了布尔逻辑创建新列，替换缺失值，并将某些列转换为日期类型，以便进行后续分析。

分析了球员年龄对得分、助攻和篮板的影响，以及身高、体重与场均助攻和篮板之间的相关性。

使用Flask框架搭建本地Web服务器，通过渲染HTML模板展示可视化结果，用户可以通过链接访问不同的统计图。

文章指出，国际球员在NBA中的占比在过去几十年中稳步上升，显示出联盟的国际化成功。

🏷️