在Unity Catalog中共享集群的胜利:引入集群库、Python UDFs、Scala、机器学习等功能

在Unity Catalog中共享集群的胜利:引入集群库、Python UDFs、Scala、机器学习等功能

💡 原文英文,约1300词,阅读约需5分钟。
📝

内容提要

Databricks在Unity Catalog中引入了安全和治理功能,用于在共享计算资源上开发和运行SQL、Python和Scala工作负载。提供了针对Scala、Python和SQL Spark工作负载的细粒度访问控制。共享集群提供了成本节约、简化管理和数据治理。增强功能包括集群库、初始化脚本、对Scala工作负载的支持、Python和Pandas UDFs、机器学习库和结构化流处理。需要Databricks Runtime 13.3 LTS或更高版本。

🎯

关键要点

  • Databricks在Unity Catalog中引入了安全和治理功能,支持SQL、Python和Scala工作负载的安全开发和运行。

  • 提供了针对Scala、Python和SQL Spark工作负载的细粒度访问控制。

  • 共享集群允许多个用户同时在同一计算资源上执行工作负载,实现成本节约和简化管理。

  • 集群库和初始化脚本可简化集群设置,增强安全性和治理。

  • Scala工作负载可以安全地与Python和SQL并行运行,确保用户代码隔离。

  • 支持Python和Pandas UDFs的安全执行,确保用户代码隔离。

  • 支持使用Spark驱动节点运行流行的机器学习库,并使用MLflow管理机器学习生命周期。

  • 结构化流处理功能支持实时数据处理和分析解决方案。

  • 共享集群的推荐访问模式为共享访问模式,适合大多数工作负载。

  • 单用户访问模式适用于需要特权机器访问的工作负载。

  • 集群库允许在多个集群间共享和管理库,确保版本一致性。

  • 初始化脚本可在集群创建过程中自动执行任务,增强灵活性和安全性。

  • Scala现已在共享集群上得到支持,数据工程师可以利用其灵活性和性能。

  • 支持Python和Pandas UDFs,提供额外的数据保护层。

  • 集成支持MLflow,简化机器学习生命周期管理。

  • 结构化流处理现已在共享集群上可用,改变数据团队处理流式工作负载的方式。

  • 使用Databricks Runtime 13.3 LTS或更高版本即可体验这些新功能。

➡️

继续阅读