DEV Community ·

使用Scala进行数据工程：掌握Apache Flink和Google Pub/Sub的实时数据处理

💡 原文英文，约3300词，阅读约需12分钟。

📝

内容提要

本文讲解如何使用Apache Flink、Scala和Google Pub/Sub构建实时数据管道。步骤包括创建Pub/Sub主题和订阅，安装依赖，定义数据模型及序列化方法。数据管道从Pub/Sub读取客户信息，应用业务规则后，将处理数据发送到另一个主题，并展示本地运行方法。

🎯

❓

通过创建Pub/Sub主题和订阅、安装依赖、定义数据模型及序列化方法，最后实现数据处理逻辑来构建实时数据管道。

数据管道从Pub/Sub读取客户信息，分割全名、计算年龄，并根据年龄判断客户是否活跃，最后将处理后的数据发送到另一个主题。

使用Scala CLI的指令功能定义依赖项，包括Apache Flink Client和Flink Scala API等。

通过创建Scala类来表示JSON负载，使用uPickle库进行序列化和反序列化。

通过Scala CLI运行数据管道，并传入GCP项目ID和Pub/Sub主题名称等参数。

实现自定义的序列化器和反序列化器，使用uPickle库将数据转换为JSON格式。

🏷️

Meta的论坛：部分Reddit、部分Facebook、部分Google AI概述
Meta推出了新的Forum应用，将Facebook小组整合到一个专用平台，并配备AI聊天机器人，方便用户搜索和发布建议。用户可通过Facebook账号登...
【漏洞通告】Apache Struts外部实体(XXE)注入漏洞S2-069（CVE-2025-68493）
绿盟科技CERT监测到Apache Struts存在外部实体(XXE)注入漏洞S2-069（CVE-2025-68493），攻击者可利用该漏洞读取敏感文件...
Google 开源 AX 与 Agent Substrate：构建以 Agent 为核心的云原生计算底座
本文永久链接 – https://tonybai.com/2026/05/23/google-open-sources-ax-and-agent-subs...
谷歌的AI搜索如此失灵，以至于它可以“忽视”你正在寻找的内容
谷歌的AI搜索在处理“disregard”或“ignore”等词时出现问题，AI概述部分未能提供正常结果，而是给出了类似传统聊天机器人的回应。谷歌尚未对此作出回应。
在Databricks上通过提示缓存加速开源模型的LLM推理
Why Prompt Caching MattersLarge language model (LLM) inference often involves...
适用于任何代理的可观察性：在Databricks上使用OpenTelemetry和Unity Catalog进行生产就绪的追踪
Why AI Tracing Breaks Traditional ObservabilityAs AI applications move into p...