厦大数据库实验室博客 ·

代码-第9章 Spark-MLlib-林子雨编著《Spark编程基础（Python版，第2版）》

💡 原文中文，约33400字，阅读约需80分钟。

📝

内容提要

本文介绍了使用Spark进行数据处理和机器学习的基础操作，包括创建向量和矩阵、加载数据、计算特征相关性、转换和索引、聚类、推荐模型、模式挖掘和分类等。

🎯

关键要点

介绍了使用Spark进行数据处理和机器学习的基础操作。
创建稠密向量和稀疏向量的示例代码。
从文件加载LIBSVM格式的数据。
创建稠密矩阵和稀疏矩阵的示例代码。
读取Spark自带的图像数据源中的数据。
计算特征相关性的皮尔逊和斯皮尔曼相关性矩阵。
执行卡方独立性检验的步骤和示例代码。
计算加权平均值和方差的示例代码。
使用TF-IDF进行文本特征提取的步骤。
使用StringIndexer进行标签索引的示例代码。
使用VectorIndexer进行特征索引的示例代码。
使用ChiSqSelector进行特征选择的步骤和示例代码。
使用Logistic回归进行分类的完整流程。
使用决策树进行分类的完整流程。
使用KMeans进行聚类的完整流程。
使用GMM进行聚类的完整流程。
使用FP-Growth进行频繁模式挖掘的完整流程。
使用PrefixSpan进行频繁序列模式挖掘的完整流程。
使用ALS进行推荐模型的构建和评估的完整流程。
使用交叉验证优化机器学习模型的完整流程。

🏷️

继续阅读

R星确认GTA6盒装版兑换码在PS5上有严格的锁区机制但在Xbox上没有任何限制
#游戏资讯 R 星确认 GTA6 兑换码 (实体盒装版) 在 PS5 上有严格的锁区机制，这并不是 R 星锁区，而是索尼按照 PSN 账号所在区域进行锁区...
开源路由系统OpenWrt发布紧急安全更新修复DHCPv6漏洞内网设备可提权执行代码
#安全资讯开源路由系统 OpenWrt 发布紧急安全更新修复 DHCPv6 中的严重级安全漏洞，相邻网络攻击者最高可以 root 权限执行代码。该漏洞对...
少一个座位便宜 1.4 万，极氪 9X 五座版上市，47.19 万起
大五座不是六座的平替。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
能力厚重，接入极轻：HarmonyOS 7 如何把鸿蒙生态入场门槛降到几行代码
在手机相册里选好一张图，拿着手机往电脑屏幕轻轻一碰，图片就直接出现在了《简讯》app「半角巷」的编辑框里。不用翻文件夹，也不用靠传输工具互联，《简讯》团队...
Debian社区讨论是否禁止使用AI提交代码：有要求全面禁止也有主张允许但必须披露
#人工智能 Debian 社区正在讨论是否禁止使用 AI 提交代码和其他贡献：已有提案要求全面禁止，也有提案主张允许但贡献者必须承担责任并进行披露。目前讨...
谷歌推出Chrome for Linux Arm64原生版支持账号数据同步和DRM数字版权保护机制
#软件资讯终于！谷歌推出 Chrome for Linux Arm64 原生版，附带 Widevine DRM 版权保护机制，可观看各类视频网站。值得注...

内容提要

关键要点

标签

继续阅读