💡
原文英文,约1300词,阅读约需5分钟。
📝
内容提要
Apache Spark™ Structured Streaming是一种流处理平台,构建在Spark SQL引擎之上,提供可扩展性和容错性。Databricks上的Structured Streaming使用率呈指数增长,每周运行超过1400万个作业。Structured Streaming工作负载分为分析和操作两类,操作工作负载强调对数据的及时转换和操作。Databricks的性能改进提高了有状态流水线的延迟,为具有严格延迟SLA的工作负载提供了更好的支持。
🎯
关键要点
- Apache Spark™ Structured Streaming是一个流处理平台,提供可扩展性和容错性。
- Databricks上的Structured Streaming使用率呈指数增长,每周运行超过1400万个作业。
- Structured Streaming工作负载分为分析和操作两类,操作工作负载强调数据的及时转换和操作。
- 一致的低延迟是操作工作负载的关键要求。
- Databricks的性能改进提高了有状态流水线的延迟,支持严格的延迟SLA。
- 有状态流水线需要在多个微批次之间保持状态,适用于实时用例。
- Databricks推荐在生产工作负载中使用RocksDB状态存储提供者,以避免内存问题。
- 基准测试显示,使用改进后的DBR 13.3 LTS,状态流水线的延迟可减少高达93%。
- 项目Lightspeed的性能改进为客户提供了更快的有状态流水线处理能力。
- 所有提到的功能在DBR 13.3 LTS版本中可用。
➡️