Hive

Hive

💡 原文中文,约48200字,阅读约需115分钟。
📝

内容提要

本文介绍了Apache Hive的基本查询、RLIKE语句、UNION语句、SAMPLE快速采样、虚拟列、常用内置函数、数据清洗转换、数据统计、导入导出数据和权限管理等内容。

🎯

关键要点

  • Apache Hive 是一个开源数据仓库工具,旨在通过类SQL语言在Hadoop上执行大规模数据查询和分析。
  • Hive 提供了简单易用的查询语言 HQL,适合不熟悉 Java 的数据分析人员。
  • Hive 的特点包括灵活性高、支持自定义用户函数、适合离线处理大数据,但不支持行级更新。
  • Hive 的基础架构包括元数据存储、驱动程序和用户接口,支持多种操作方式。
  • Hive 执行 HQL 查询的过程包括解析、语义分析、优化、物理计划生成和执行。
  • Hive 可以单机部署,但支持分布式运行的 MapReduce 程序。
  • 安装 Hive 需要配置 MySQL 作为元数据存储,并进行相关的环境变量设置。
  • Hive 支持创建内部表和外部表,内部表删除时会删除数据,外部表则只删除元数据。
  • Hive 支持分区表和分桶表,以提高查询性能和管理大数据量。
  • Hive 提供了临时表和视图的功能,临时表仅在当前会话有效,视图用于简化复杂查询。
  • Hive 的基本语法包括创建数据库、创建表、加载数据和查询数据等操作。
  • Hive 支持多种内置函数,包括数值函数、集合函数、日期函数和字符串函数。
  • 数据导入导出功能允许将数据从本地或HDFS加载到Hive表中,或将Hive表的数据导出到指定路径。
  • 权限管理功能允许对用户和角色授予或撤销对表和数据库的访问权限。
➡️

继续阅读