Databricks ·

在Unity Catalog中共享集群的胜利：引入集群库、Python UDFs、Scala、机器学习等功能

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

Databricks在Unity Catalog中引入了安全和治理功能，用于在共享计算资源上开发和运行SQL、Python和Scala工作负载。提供了针对Scala、Python和SQL Spark工作负载的细粒度访问控制。共享集群提供了成本节约、简化管理和数据治理。增强功能包括集群库、初始化脚本、对Scala工作负载的支持、Python和Pandas UDFs、机器学习库和结构化流处理。需要Databricks Runtime 13.3 LTS或更高版本。

🎯

关键要点

Databricks在Unity Catalog中引入了安全和治理功能，支持SQL、Python和Scala工作负载的安全开发和运行。
提供了针对Scala、Python和SQL Spark工作负载的细粒度访问控制。
共享集群允许多个用户同时在同一计算资源上执行工作负载，实现成本节约和简化管理。
集群库和初始化脚本可简化集群设置，增强安全性和治理。
Scala工作负载可以安全地与Python和SQL并行运行，确保用户代码隔离。
支持Python和Pandas UDFs的安全执行，确保用户代码隔离。
支持使用Spark驱动节点运行流行的机器学习库，并使用MLflow管理机器学习生命周期。
结构化流处理功能支持实时数据处理和分析解决方案。
共享集群的推荐访问模式为共享访问模式，适合大多数工作负载。
单用户访问模式适用于需要特权机器访问的工作负载。
集群库允许在多个集群间共享和管理库，确保版本一致性。
初始化脚本可在集群创建过程中自动执行任务，增强灵活性和安全性。
Scala现已在共享集群上得到支持，数据工程师可以利用其灵活性和性能。
支持Python和Pandas UDFs，提供额外的数据保护层。
集成支持MLflow，简化机器学习生命周期管理。
结构化流处理现已在共享集群上可用，改变数据团队处理流式工作负载的方式。
使用Databricks Runtime 13.3 LTS或更高版本即可体验这些新功能。

🏷️

在Unity Catalog中共享集群的胜利：引入集群库、Python UDFs、Scala、机器学习等功能

内容提要

关键要点

标签

继续阅读