土法炼钢兴趣小组的博客 ·

【系统架构设计】流处理架构：从批处理到实时的范式迁移

💡 原文中文，约32500字，阅读约需78分钟。

📝

内容提要

电商平台的风控系统需要在200毫秒内判断交易的欺诈风险，依赖用户下单频率、IP变化和设备指纹等数据。流处理相较于批处理能够实时计算，解决了无界数据流的挑战。文章探讨了流处理的精确一次语义及其工程难度，强调事件时间与处理时间的选择对结果的影响，以及水印机制和迟到数据的处理策略。同时，详细讨论了Flink的Checkpoint机制和状态管理，展示了流处理在实时数据管道中的重要性。

🎯

关键要点

电商平台的风控系统需要在200毫秒内判断交易的欺诈风险，依赖用户下单频率、IP变化和设备指纹等数据。
流处理相较于批处理能够实时计算，解决了无界数据流的挑战。
流处理的精确一次语义在工程上存在难度，涉及事件时间与处理时间的选择、水印机制和迟到数据的处理策略。
Flink的Checkpoint机制和状态管理是流处理的重要组成部分，确保数据处理的准确性和一致性。
选择事件时间而非处理时间可以避免因数据积压导致的统计偏差。
水印机制用于处理事件时间模型中的数据到达顺序问题，确保窗口计算的准确性。
Flink支持多种窗口类型，窗口的选择和配置直接影响计算结果的语义。
Kafka Streams与Flink在架构设计和状态管理上存在显著差异，适用场景不同。
流处理的可观测性对于长期运行的服务至关重要，关键监控指标包括吞吐量、延迟和Checkpoint相关信息。
流处理架构的演进趋势包括Kappa架构的提出和流式数据湖的集成。

🔎

延伸解读

流处理与批处理的根本差异

流处理与批处理的本质区别在于数据的边界假设。批处理处理的是有界数据集，计算在所有数据到达后一次性完成，而流处理则面对无界数据流，计算是持续进行的。这种差异导致流处理需要解决如何定义输出时间、如何处理迟到数据等复杂问题。理解这一点对于选择合适的处理方式至关重要。

精确一次语义的挑战

实现流处理中的精确一次语义是一个复杂的工程挑战。它不仅要求在数据源端、处理过程和输出端都能保证消息的唯一性，还需要处理网络分区和节点故障等问题。对于大多数应用场景，采用至少一次的语义加上幂等写入可能是更为务实的选择，尤其是在对延迟要求严格的情况下。

事件时间与处理时间的选择

在流处理系统中，选择事件时间而非处理时间对于结果的准确性至关重要。事件时间基于数据实际发生的时间，而处理时间则依赖于数据到达处理引擎的时间。错误的时间选择可能导致统计结果的严重偏差，尤其是在数据积压或跨时区的情况下。因此，设计时需谨慎考虑时间语义的影响。

Flink的Checkpoint机制

Flink的Checkpoint机制是实现流处理精确一次语义的核心。它通过全局快照算法确保在故障恢复时，所有算子的状态一致。然而，Checkpoint的设计需要考虑反压问题，尤其是在高负载情况下，可能导致性能下降。因此，合理配置Checkpoint间隔和大小是优化流处理性能的关键。

❓

延伸问答

流处理与批处理的主要区别是什么？

流处理面对的是无界数据流，计算是持续的，而批处理处理的是有界数据集，计算是一次性的。

在流处理系统中，如何处理迟到数据？

可以通过允许迟到、直接丢弃或旁路输出等策略来处理迟到数据。

Flink的Checkpoint机制有什么重要性？

Checkpoint机制确保流处理的精确一次语义，能够在故障恢复时保证数据的一致性和准确性。

选择事件时间而非处理时间的原因是什么？

选择事件时间可以避免因数据积压导致的统计偏差，确保计算结果的准确性。

流处理架构的演进趋势有哪些？

流处理架构的演进趋势包括Kappa架构的提出和流式数据湖的集成。

Kafka Streams与Flink的主要区别是什么？

Kafka Streams是一个嵌入式流处理库，而Flink是一个独立的分布式流处理引擎，二者在部署模型和状态管理上有显著差异。

🏷️