郑文峰的博客 ·

pyspark streaming简介和消费 kafka示例

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了Spark Streaming的基础和高级数据源，包括通过socket和Kafka进行数据流处理的示例代码。基础数据源通过socket连接，展示了数据的读取与处理；高级数据源则整合Kafka，提供两种使用模式。

🎯

❓

Spark Streaming的基础数据源可以通过streamingContext API实现，包括文件系统和socket连接。

可以使用socketTextStream方法读取socket中的数据进行流处理，示例代码展示了如何实现。

Kafka在Spark Streaming中提供两种使用模式：receiver模式和direct模式。

可以使用KafkaUtils.createStream或KafkaUtils.createDirectStream方法来创建Kafka流。

运行程序需要下载相应的jar包，并确保正确配置。

Spark Streaming可以通过textFileStream方法处理文件系统数据，但需要确保文件路径正确。

🏷️

在Kubernetes中管理Valkey集群
Over the last several years, Percona has introduced several rock-star Kuberne...
网友吐槽：OpenClaw又触发了Claude Code当场翻脸还扣钱！
有趣的是，如果你最近的提交中在 JSON 数据块里提到了 OpenClaw，Claude Code 要么会拒绝你的请求，要么会额外收费。一句“openc...
Christophe Pettus: On pgvectorscale, and Hybrid Search Without an Elasticsearch Sidecar
pgvector is excellent. It is also, at large scale, expensive — because the HN...
保罗·梅尔基奥雷：Posette 2026
Posette 2026是一个免费的虚拟开发者活动，专注于PostgreSQL生成列的应用与演变。活动将通过实际案例探讨生成列的性能、存储和查询行为，并结...
OpenClaw v2026.4.29：从消息控制到记忆系统彻底进化
OpenClaw v2026.4.29版本改进了自动化对话、记忆系统和基础设施稳定性。新增的active-run引导和visible-reply机制增强了...
Roblox的日活跃用户持续下降，年龄检查减缓了增长
Roblox的日活跃用户在过去六个月减少了2000万，降至1.32亿，主要因实施年龄检查导致新用户增长放缓。尽管如此，Roblox的收入仍增长至14亿美元...