基于Python和Flink的酒店数据分析

基于Python和Flink的酒店数据分析

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

该文章介绍了使用Flink进行大数据处理和分析的案例,包括数据清洗和预处理,上传到HDFS,使用Flink Python API进行数据分析,绘制可视化图表。

🎯

关键要点

  • 文章介绍了使用Flink进行大数据处理和分析的案例。
  • 数据集来源于Kaggle公开项目Hotel booking demand,包含119390条酒店预定记录。
  • 数据预处理包括填充缺失值、格式转换和删除异常值。
  • 预处理结果上传到HDFS,使用python hdfs模块进行操作。
  • 使用Flink Python API进行数据分析,主要使用Table API。
  • 分析内容包括酒店每月平均价格变化、入住量变化、游客分布和不同价格区间的预定情况。
  • 通过可视化图表展示分析结果,发现城市酒店和度假酒店的预定旺季及房价变化。
  • 游客主要分布于欧洲地区,其次是北美。
  • 大多数游客选择人均价格在(0,100)区间的酒店入住,且入住天数与酒店类型有关。
  • 代码目录结构包括数据集、分析结果、数据分析代码和绘图代码。
➡️

继续阅读