💡
原文中文,约5300字,阅读约需13分钟。
📝
内容提要
本实验旨在对英国航空的客户反馈数据进行深入研究。通过应用Spark和Hadoop等大数据处理框架,以及数据可视化技术和机器学习算法,对数据进行存储、处理、分析和评分预测。实验环境搭建包括Linux、Hadoop、Spark、Python和JDK。数据集是英国航空的客户反馈数据,包含多个字段。数据预处理包括手工处理、导入和基本信息查询、数据清洗和文本规范化。数据分析包括乘客特征分析、乘客情感分析和航线表现分析。
🎯
关键要点
- 实验旨在深入研究英国航空的客户反馈数据,应用大数据处理框架和机器学习算法。
- 实验环境包括Linux、Hadoop、Spark、Python和JDK。
- 数据集来自Kaggle,包含客户对英国航空的评价,涉及多个关键方面。
- 数据预处理包括手工处理、数据清洗和文本规范化,确保数据质量。
- 使用Hadoop分布式文件系统(HDFS)进行数据的高效存储。
- 数据分析分为乘客特征分析、情感分析和航线表现分析。
- 乘客特征分析包括不同类型乘客的占比和舱位评分分布。
- 情感分析探讨常见表扬词和批评词,以及情感分析与总体评分的相关性。
- 航线表现分析统计Top10热门出发地和目的地的航线。
🏷️
标签
➡️