小红花·文摘 - 小红花技术领袖俱乐部

本文总结了流式数据处理中的背压机制及常见故障模式，如数据倾斜、checkpoint超时和Kafka rebalance风暴。详细阐述了背压的传播链、监测指标及其对系统性能的影响，并提供了故障诊断与修复建议。最后，比较了Flink、Kafka Streams、Spark和RisingWave四种流处理引擎的状态模型和运维复杂度，以帮助用户做出选型决策。

【流式数据处理】背压、故障模式与引擎对照

土法炼钢兴趣小组的博客 ·

数据流简介

数据流简介

The New Stack ·

本文讨论了实时机器学习中计算实时预测特征的方法，包括无状态和缓慢变化的特征可以预先计算并存储在特征存储中，有状态和快速变化的特征需要使用流处理引擎计算。选择取决于特征的新鲜度要求和重复计算的次数。流处理和批处理引擎都是可行的选择。

大规模实时机器学习处理架构简介

极道 ·

Arroyo v0.5是一个流处理引擎，现在可以将流式SQL查询的结果以Parquet和JSON格式写入对象存储（如S3）。一篇文章讨论了异步Rust与常规Rust的挑战，另一篇文章探讨了在将Turborepo从Go迁移到Rust时使用Zig的方法。

【Rust日报】2023-09-09 Arroyo v0.5，高效地将流式数据传输到 S3

Rust.cc ·