Apache Spark™ 3.5中的Arrow优化Python UDF
原文英文,约900词,阅读约需3分钟。发表于: 。In Apache Spark™, Python User-Defined Functions (UDFs) are among the most popular features. They empower users to craft custom code tailored to their u...
Apache Spark 3.5和Databricks Runtime 14.0引入了Arrow优化的Python UDF,以提高性能。Arrow优化的Python UDF使用Apache Arrow进行序列化和反序列化,从而实现JVM和Python进程之间更快的数据交换。用户可以控制是否为单个UDF或整个SparkSession启用Arrow优化。与Pickle相比,Arrow的类型强制转换旨在在转换过程中尽可能保留更多的信息和精度。