Apache Spark Structured Streaming中有状态流水线的性能改进
原文英文,约1300词,阅读约需5分钟。发表于: 。Introduction Apache Spark™ Structured Streaming is a popular open-source stream processing platform that provides scalability and fault tolerance, built on top of the...
Apache Spark™ Structured Streaming是一种流处理平台,构建在Spark SQL引擎之上,提供可扩展性和容错性。Databricks上的Structured Streaming使用率呈指数增长,每周运行超过1400万个作业。Structured Streaming工作负载分为分析和操作两类,操作工作负载强调对数据的及时转换和操作。Databricks的性能改进提高了有状态流水线的延迟,为具有严格延迟SLA的工作负载提供了更好的支持。