使用hue创建ozzie的pyspark action workflow

使用hue创建ozzie的pyspark action workflow

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文介绍如何在Apache Hadoop的Hue系统中创建包含Spark动作的Oozie PySpark工作流。使用PySpark库设置Spark会话并配置运行模式,确保使用正确的Spark库和JAR包路径。

🎯

关键要点

  • Hue是一个Apache Hadoop的用户界面系统。

  • 本文介绍如何使用Hue创建一个包含PySpark动作的Oozie工作流。

  • 该工作流仅包含一个Spark动作,使用Python语言的PySpark库。

  • 通过SparkSession设置Spark会话,支持Hive功能,并指定应用名称。

  • 可以选择Spark的运行模式,默认使用Spark 1的库,若使用Spark 2需设置属性oozie.action.sharelib.for.spark=spark2。

  • 需要在Oozie设置中配置一些变量,包括oozie.libpath和Spark的JAR包路径。

🏷️

标签

➡️

继续阅读