内容提要
Databricks Unity Catalog中的Volumes是一个功能,可以管理和处理非表格数据,包括非结构化、半结构化和结构化数据。Volumes的公开预览版已在AWS、Azure和GCP上推出。非表格数据的常见用例包括机器学习、数据科学探索、文件存储和共享等。使用Volumes可以构建可扩展的基于文件的应用程序。
关键要点
-
Databricks Unity Catalog中的Volumes功能用于管理和处理非表格数据,包括非结构化、半结构化和结构化数据。
-
Volumes的公开预览版已在AWS、Azure和GCP上推出。
-
非表格数据的常见用例包括机器学习、数据科学探索、文件存储和共享等。
-
Volumes允许用户构建可扩展的基于文件的应用程序,处理大规模非表格数据。
-
Volumes是Unity Catalog中的一种新对象,代表云对象存储位置的逻辑存储卷。
-
Volumes支持对非表格数据的治理、管理和追踪数据血缘。
-
用户可以通过Data Explorer界面创建和管理Volumes,并设置访问权限。
-
Volumes支持灵活的存储配置,包括托管和外部Volumes。
-
Volumes利用云存储的性能和规模,支持高流量工作负载。
-
Volumes的用户界面集成于Databricks平台,支持多种操作。
-
Volumes提供了专用路径格式以访问文件,符合Unity Catalog的层次结构。
-
Volumes简化了与云存储数据文件的交互,支持多种数据科学和机器学习库。
-
Unity Catalog中的Volumes适用于Databricks Enterprise和Pro版本,支持Databricks Runtime 13.2及以上版本。
-
未来将推出更多Volumes功能,包括使用Delta Sharing共享Volumes的能力。