Unity Catalog Lakeguard:首创且唯一的多用户Apache Spark™集群数据治理解决方案

Unity Catalog Lakeguard:首创且唯一的多用户Apache Spark™集群数据治理解决方案

💡 原文英文,约1100词,阅读约需4分钟。
📝

内容提要

Unity Catalog Lakeguard允许用户在Databricks Data Intelligence平台上以SQL、Python和Scala运行Apache Spark工作负载,并提供完整的数据治理。它通过在共享计算中从其他用户代码和Spark引擎中隔离运行用户代码来强制执行数据治理。这样可以安全共享集群,降低计算成本和操作负担。Lakeguard还用于隔离Databricks SQL仓库中的Python UDF。使用Lakeguard,Databricks客户可以以SQL、Python和Scala运行工作负载,并实现完整的数据治理。

🎯

关键要点

  • Unity Catalog Lakeguard允许在Databricks Data Intelligence平台上以SQL、Python和Scala运行Apache Spark工作负载,并提供完整的数据治理。
  • Lakeguard通过在共享计算中隔离用户代码,强制执行数据治理,降低计算成本和操作负担。
  • Lakeguard自Unity Catalog推出以来逐步扩展功能,支持在共享集群上运行任意代码,包括Python和Scala UDF。
  • Unity Catalog为所有表、视图和机器学习模型提供全面的数据治理和数据血缘。
  • Lakeguard在计算级别强制执行数据治理,确保用户代码与其他用户代码和Spark引擎完全隔离。
  • Databricks是唯一支持SQL、Python和Scala工作负载安全共享计算的平台,具备细粒度访问控制。
  • 通过Spark Connect和沙箱技术,用户代码在客户端和Spark执行器中实现隔离,确保数据安全。
  • 用户可以通过使用共享集群和Unity Catalog节省时间和成本,促进团队协作。
➡️

继续阅读