Apache Spark 3.5和Databricks Runtime 14.0引入了Arrow优化的Python UDF,以提高性能。Arrow优化的Python UDF使用Apache Arrow进行序列化和反序列化,从而实现JVM和Python进程之间更快的数据交换。用户可以控制是否为单个UDF或整个SparkSession启用Arrow优化。与Pickle相比,Arrow的类型强制转换旨在在转换过程中尽可能保留更多的信息和精度。
Databricks Runtime的AQE是一种性能特性,可以在查询执行期间使用运行时统计信息不断重新优化批处理查询。从Databricks Runtime 13.1开始,使用ForeachBatch Sink的实时流查询也将利用AQE进行动态重新优化。AQE可以解决静态查询计划和估计统计数据的限制,通过利用ForeachBatch Sink的运行时统计信息进行动态优化。AQE在无状态操作符上的效果最好,可以应用于ForeachBatch可调用函数中的微批DataFrame。AQE在流中的应用可以提高Delta MERGE等常见流式用例的性能。
完成下面两步后,将自动完成登录并继续当前操作。