小红花·文摘

在Kubernetes上部署的PySpark与Jupyter Notebook

DEV Community ·

学习笔记 6.13-14：使用Python的Kafka流处理与使用PySpark的结构化流处理

DEV Community ·

在Windows笔记本上运行PySpark本地Python

DEV Community ·

Check out these 10 ways to leverage efficient distributed dataset processing combining the strengths of Spark and Python libraries for data science.

10 Essential PySpark Commands for Big Data Processing

KDnuggets ·

使用Jupyter、Cassandra、Pyspark和Docker进行数据分析的基础设施

DEV Community ·

Azure Synapse PySpark 工具箱 001：输入/输出

DEV Community ·

在动态数据环境中工作时，使用中央平台团队提供的工具进行数据处理、清洗和准备，很容易陷入一个不理想的情况：代码重复，以不同的方式编写以达到相同的目标。通过实施这些概念，可以实现代码标准化控制、避免代码重复，并提高开发和执行效率。使用PySpark中的可重用函数、reduce和lambda函数，可以在单个DataFrame中堆叠转换，避免不必要的重复，并确保代码更有组织性、可读性和可维护性。将这种方法扩展为共享库，促进团队间的协作，增强数据治理，同时灵活控制环境中的批量更新。

实现简洁且可扩展的PySpark代码：避免冗余的指南

DEV Community ·

【Rust日报】2024-09-05 sail - 流处理引擎，完全兼容PySpark，比Spark快4倍，硬件消耗低 94%

Rust.cc ·

基于英国航空公司客户反馈数据的PySpark数据处理与分析

厦大数据库实验室博客 ·

比较Pandas、Polars和PySpark三种工具的性能。Pandas适用于小型数据集，但在大型数据集上性能较差。PySpark在大型数据集上有显著提升。Polars在单机上处理大型数据集的效率明显优于其他工具。根据项目需求和资源选择合适工具，Polars适用于中小型数据集，PySpark适用于大规模分布式处理。未来需考虑基于Rust构建的Polars等工具的发展。