代码-第9章 Spark-MLlib-林子雨编著《Spark编程基础(Python版,第2版)》
原文中文,约33400字,阅读约需80分钟。
📝
内容提要
本文介绍了使用Spark进行数据处理和机器学习的基础操作,包括创建向量和矩阵、加载数据、计算特征相关性、转换和索引、聚类、推荐模型、模式挖掘和分类等。
🎯
关键要点
-
介绍了使用Spark进行数据处理和机器学习的基础操作。
-
创建稠密向量和稀疏向量的示例代码。
-
从文件加载LIBSVM格式的数据。
-
创建稠密矩阵和稀疏矩阵的示例代码。
-
读取Spark自带的图像数据源中的数据。
-
计算特征相关性的皮尔逊和斯皮尔曼相关性矩阵。
-
执行卡方独立性检验的步骤和示例代码。
-
计算加权平均值和方差的示例代码。
-
使用TF-IDF进行文本特征提取的步骤。
-
使用StringIndexer进行标签索引的示例代码。
-
使用VectorIndexer进行特征索引的示例代码。
-
使用ChiSqSelector进行特征选择的步骤和示例代码。
-
使用Logistic回归进行分类的完整流程。
-
使用决策树进行分类的完整流程。
-
使用KMeans进行聚类的完整流程。
-
使用GMM进行聚类的完整流程。
-
使用FP-Growth进行频繁模式挖掘的完整流程。
-
使用PrefixSpan进行频繁序列模式挖掘的完整流程。
-
使用ALS进行推荐模型的构建和评估的完整流程。
-
使用交叉验证优化机器学习模型的完整流程。
🏷️