代码-第9章 Spark-MLlib-林子雨编著《Spark编程基础(Python版,第2版)》

💡 原文中文,约33400字,阅读约需80分钟。
📝

内容提要

本文介绍了使用Spark进行数据处理和机器学习的基础操作,包括创建向量和矩阵、加载数据、计算特征相关性、转换和索引、聚类、推荐模型、模式挖掘和分类等。

🎯

关键要点

  • 介绍了使用Spark进行数据处理和机器学习的基础操作。

  • 创建稠密向量和稀疏向量的示例代码。

  • 从文件加载LIBSVM格式的数据。

  • 创建稠密矩阵和稀疏矩阵的示例代码。

  • 读取Spark自带的图像数据源中的数据。

  • 计算特征相关性的皮尔逊和斯皮尔曼相关性矩阵。

  • 执行卡方独立性检验的步骤和示例代码。

  • 计算加权平均值和方差的示例代码。

  • 使用TF-IDF进行文本特征提取的步骤。

  • 使用StringIndexer进行标签索引的示例代码。

  • 使用VectorIndexer进行特征索引的示例代码。

  • 使用ChiSqSelector进行特征选择的步骤和示例代码。

  • 使用Logistic回归进行分类的完整流程。

  • 使用决策树进行分类的完整流程。

  • 使用KMeans进行聚类的完整流程。

  • 使用GMM进行聚类的完整流程。

  • 使用FP-Growth进行频繁模式挖掘的完整流程。

  • 使用PrefixSpan进行频繁序列模式挖掘的完整流程。

  • 使用ALS进行推荐模型的构建和评估的完整流程。

  • 使用交叉验证优化机器学习模型的完整流程。

🏷️

标签

➡️

继续阅读