Anjhon’s Blog ·

Spark Core

💡 原文中文，约38200字，阅读约需91分钟。

📝

内容提要

本文介绍了Spark Core的基本功能和应用场景，RDD的特性和转换算子和行动算子的使用，共享变量的使用方法和原理，内核调度和DAG的作用，宽窄依赖和内存迭代计算的优势，并行度设置和Shuffle阶段的工作原理，以及任务调度和层级关系。

🎯

❓

Spark Core 是 Apache Spark 的核心模块，提供分布式内存计算和数据处理的基础支持。

RDD 的特性包括不可变性、可分区性和支持并行计算。

RDD 可以通过并行化集合或读取外部数据源（如文件）来创建。

转换算子是懒加载的，返回值仍是 RDD；行动算子会触发计算，返回非 RDD 的结果。

DAG 描述了 Spark 作业的各个阶段及其依赖关系，是任务调度和执行的核心。

建议将并行度设置为 CPU 核心数的 2 到 10 倍，以提高任务执行效率。

🏷️

第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）
第28期大数据师资培训班将于2026年8月在泉州举行，旨在提升中国高校大数据课程的教学水平。培训内容包括课程知识体系、授课方法和实验环境搭建，帮助教师建立...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
技嘉在COMPUTEX 2026展示多款生活美学主机
(全球TMT2026年6月5日讯)技嘉科技于COMPUTEX 2026展示多款生活美学主机，包含展现简约风格的 […]
技嘉于COMPUTEX 2026以“ENTER INFINITY”为主题开展
(全球TMT2026年6月5日讯)技嘉科技正式于COMPUTEX 2026以“ENTER INFINITY”为 […]
华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
史上最强游戏掌机来了！性能堪比 PS5，但……
坏消息：1 万块#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。