宣布对新UC Python用户定义函数功能的支持

宣布对新UC Python用户定义函数功能的支持

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

Unity Catalog Python用户定义函数(UC Python UDFs)在现代数据仓库中广泛应用,支持自定义Python依赖、批量输入模式和安全访问外部云服务,提升了数据处理的灵活性和性能,允许用户直接通过SQL操作数据和外部系统。

🎯

关键要点

  • Unity Catalog Python用户定义函数(UC Python UDFs)在现代数据仓库中被广泛使用,每天处理数百万个查询。
  • UC Python UDFs支持自定义Python依赖、批量输入模式和安全访问外部云服务。
  • 新功能在AWS、Azure和GCP的Unity Catalog集群上进行公共预览,支持Databricks Runtime 16.3及以上版本。
  • 用户可以从PyPI、Unity Catalog Volumes和blob存储安装自定义Python依赖。
  • 批量UC Python UDFs允许函数对数据批量操作,提供更大的灵活性和性能提升。
  • 批量执行使得UDF可以在批次之间保持状态,减少初始化开销。
  • 批量UC Python UDFs也称为Pandas UDFs或向量化Python UDFs,使用PARAMETER STYLE PANDAS标记。
  • 处理函数接收pandas Series的迭代器,每个Series对应一个批次,兼容pandas_udf API。

延伸问答

UC Python UDFs的主要功能是什么?

UC Python UDFs允许用户在现代数据仓库中使用自定义Python依赖、批量输入模式和安全访问外部云服务。

如何在UC Python UDFs中使用自定义Python依赖?

用户可以从PyPI、Unity Catalog Volumes和blob存储安装自定义Python依赖。

批量UC Python UDFs有什么优势?

批量UC Python UDFs允许函数对数据批量操作,提供更大的灵活性和性能提升,减少初始化开销。

UC Python UDFs支持哪些云平台?

UC Python UDFs在AWS、Azure和GCP的Unity Catalog集群上进行公共预览。

什么是Pandas UDFs?

Pandas UDFs是批量UC Python UDFs的别称,使用PARAMETER STYLE PANDAS标记,允许对pandas Series进行批量处理。

如何提高UC Python UDFs的性能?

通过批量执行和使用向量化操作,UC Python UDFs可以显著提高性能,相比逐行执行更为高效。

➡️

继续阅读