厦大数据库实验室博客 ·

基于电影数据的PySpark数据处理与分析

💡 原文中文，约9200字，阅读约需22分钟。

📝

内容提要

本文介绍了使用Python和Spark对Netflix电影和电视节目数据集进行数据处理和分析的实验，包括搭建实验环境、数据预处理和数据分析。最后进行了数据可视化展示。

🎯

🏷️

Netflix自动化RDS PostgreSQL到Aurora PostgreSQL的迁移，覆盖400个生产集群
Netflix开发了一种自动化平台，将Amazon RDS PostgreSQL数据库迁移至Amazon Aurora PostgreSQL，降低了运营风...
Macbook Neo：苹果重回校园的起点 - 肘子的 Swift 周报 #126
TelemetryDeck 证明了 Swift on Server 的可行性，支持每月处理超过 1600 万用户数据的分析服务。Daniel Jilg 分...
一些开发笔记
在VSCode中调试Java和Python需要安装相应扩展并配置环境变量。在Windows 10中，可以通过管理工具或组策略修改管理员账户名，以允许无密码...
PyMKUI：ZLMediakit的现代化前端管理界面
PyMKUI是ZLMediakit的现代化管理界面，提供视频流管理、观众列表和服务器监控等功能。采用Cookie登录以增强安全性，支持Python混合编程...
硬核测评：哪门语言最受 AI 宠爱？13 种语言横向对比，Go 表现如何？
随着AI编程工具的普及，编程语言的选择变得至关重要。Yusuke Endoh的报告评测了13种语言，结果显示动态语言如Ruby和Python表现优异，而G...
商业智能分析：AI时代的完整指南
数据智能是现代商业智能的基础，通过学习数据结构和实时反馈提升分析能力。结合复合AI，数据智能高效处理分析工作流，帮助各业务部门快速获取洞察，显著提高企业决...