小红花·文摘

本文讨论了使用Kafka 3.x（KRaft）和Flink 1.20+进行流处理实验的复现步骤，包括环境设置、事件时间与处理时间窗口、Kafka日志解读、事务处理和检查点间隔等内容。实验结果将记录在output/目录中，以确保实验的准确性。

stream-processing 实验复现

土法炼钢兴趣小组的博客 ·

流处理与批处理：数据处理的两种哲学

ByteByteGo Newsletter ·

本文探讨流式数据处理的核心概念，包括流处理、批处理和微批的区别，以及如何通过Kafka和Flink实现有状态计算。强调流处理在无界输入和乱序情况下的容错机制，比较流表对偶与Lambda/Kappa架构，指出流处理的关键在于定义输出时机、状态存储和容错策略。

【流式数据处理】流处理全景：从日志到有状态计算

土法炼钢兴趣小组的博客 ·

什么是数据管道架构？

Databricks ·

2026年5月版：新动态

Redis Blog ·

Redis 8.4中的XREADGROUP CLAIM实现单次可靠消费者

Redis Blog ·

无需新硬件的软件解决方案可降低AI的能耗

The New Stack ·

Python中的高效数据处理：批处理与流处理管道解析

freeCodeCamp.org ·

管道与过滤器架构模式将复杂处理分解为独立阶段，通过标准化通道传递数据。起源于1960年代的Unix，强调每个过滤器只关注输入和输出，促进了系统的独立开发与测试。本文探讨了Unix管道的历史、形式化定义、设计模式及其在ETL和流处理中的应用，展示了管道模式的灵活性与高效性。

【系统架构设计】管道与过滤器是什么：Unix 哲学的架构表达

土法炼钢兴趣小组的博客 ·

电商平台的风控系统需要在200毫秒内判断交易的欺诈风险，依赖用户下单频率、IP变化和设备指纹等数据。流处理相较于批处理能够实时计算，解决了无界数据流的挑战。文章探讨了流处理的精确一次语义及其工程难度，强调事件时间与处理时间的选择对结果的影响，以及水印机制和迟到数据的处理策略。同时，详细讨论了Flink的Checkpoint机制和状态管理，展示了流处理在实时数据管道中的重要性。