宣布State Reader API:全新的“Statestore”数据源

宣布State Reader API:全新的“Statestore”数据源

💡 原文英文,约1800词,阅读约需7分钟。
📝

内容提要

Databricks Runtime 14.3引入了State Reader API,允许用户访问和分析Structured Streaming的内部状态数据。该API有助于开发、调试和故障排除有状态的Structured Streaming工作负载。它包括两个新的DataFrame格式选项:state-metadata和statestore。State Reader API简化了有状态流应用程序的开发和调试,提供了并行性和偏斜度的洞察,并帮助调查生产问题。该API已包含在Apache Spark 4.0.0中。

🎯

关键要点

  • Databricks Runtime 14.3引入了State Reader API,允许用户访问和分析Structured Streaming的内部状态数据。
  • State Reader API有助于开发、调试和故障排除有状态的Structured Streaming工作负载。
  • API包括两个新的DataFrame格式选项:state-metadata和statestore。
  • state-metadata格式提供有关状态存储的高层信息,statestore格式允许对键值数据进行详细查看。
  • State Reader API简化了有状态流应用程序的开发和调试,提供并行性和偏斜度的洞察。
  • 开发者可以通过State Reader API直接查看状态,输入新记录并查询状态,简化了开发过程。
  • API有助于检测生产问题,分析数据不一致性和访问限制。
  • 使用state-metadata格式可以获取高层次的状态数据,statestore格式则提供更细粒度的状态数据。
  • State Reader API不适合持续使用,但可以通过工作流自动化状态元数据的检索和分析。
  • State Reader API在Apache Spark 4.0.0中包含,提供了对有状态流处理的透明性和易用性。
➡️

继续阅读