内容提要
Databricks在Unity Catalog中引入了安全和治理功能,用于在共享计算资源上开发和运行SQL、Python和Scala工作负载。提供了针对Scala、Python和SQL Spark工作负载的细粒度访问控制。共享集群提供了成本节约、简化管理和数据治理。增强功能包括集群库、初始化脚本、对Scala工作负载的支持、Python和Pandas UDFs、机器学习库和结构化流处理。需要Databricks Runtime 13.3 LTS或更高版本。
关键要点
-
Databricks在Unity Catalog中引入了安全和治理功能,支持SQL、Python和Scala工作负载的安全开发和运行。
-
提供了针对Scala、Python和SQL Spark工作负载的细粒度访问控制。
-
共享集群允许多个用户同时在同一计算资源上执行工作负载,实现成本节约和简化管理。
-
集群库和初始化脚本可简化集群设置,增强安全性和治理。
-
Scala工作负载可以安全地与Python和SQL并行运行,确保用户代码隔离。
-
支持Python和Pandas UDFs的安全执行,确保用户代码隔离。
-
支持使用Spark驱动节点运行流行的机器学习库,并使用MLflow管理机器学习生命周期。
-
结构化流处理功能支持实时数据处理和分析解决方案。
-
共享集群的推荐访问模式为共享访问模式,适合大多数工作负载。
-
单用户访问模式适用于需要特权机器访问的工作负载。
-
集群库允许在多个集群间共享和管理库,确保版本一致性。
-
初始化脚本可在集群创建过程中自动执行任务,增强灵活性和安全性。
-
Scala现已在共享集群上得到支持,数据工程师可以利用其灵活性和性能。
-
支持Python和Pandas UDFs,提供额外的数据保护层。
-
集成支持MLflow,简化机器学习生命周期管理。
-
结构化流处理现已在共享集群上可用,改变数据团队处理流式工作负载的方式。
-
使用Databricks Runtime 13.3 LTS或更高版本即可体验这些新功能。