利用 Apache Ranger 管理 EMR 中的数据权限

利用 Apache Ranger 管理 EMR 中的数据权限

💡 原文中文,约10600字,阅读约需26分钟。
📝

内容提要

本文介绍了如何使用Apache Ranger和Simple AD服务对Hive表进行权限管理,实现对EMR中数据的权限管理。提供了自动化部署和配置的代码。Apache Ranger还可以对S3、Trino、Spark等组件进行权限管理。

🎯

关键要点

  • 系统安全包括身份验证和授权两个核心主题。
  • Apache Ranger 是大数据领域最受欢迎的授权选择之一,支持多种大数据组件。
  • 在 AWS EMR 中,Hive 默认权限管理为 None,需集成权限控制工具以确保数据安全。
  • 本文介绍如何通过 Apache Ranger 和 Simple AD 服务对 EMR 中的数据进行 Hive 表级别的权限管理。
  • Amazon EMR 是一个托管集群平台,简化大数据框架的处理和分析。
  • Simple AD 是一种低成本的托管目录服务,适用于不超过5000用户的场景。
  • Apache Ranger 提供集中安全管理、精细授权和审计功能。
  • 部署步骤包括创建 Simple AD 服务、安装 Apache Ranger 和部署 Amazon EMR。
  • Apache Ranger 使用 MySQL 存储权限策略,需下载 JDBC Driver。
  • 通过 AWS CLI 可以快速部署 Amazon EMR,配置 Hive 和 HUE 的参数。
  • 在 Ranger 管理控制台中创建 Hive 的权限策略,设置表的访问权限。
  • 通过 Ranger 配置的权限策略可以有效管理 Hive 表的访问权限。
  • 本文提供的自动化部署和配置代码可在 GitHub 上下载和修改。
➡️

继续阅读