原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文介绍如何在Apache Hadoop的Hue系统中创建包含Spark动作的Oozie PySpark工作流。使用PySpark库设置Spark会话并配置运行模式,确保使用正确的Spark库和JAR包路径。
🎯
关键要点
-
Hue是一个Apache Hadoop的用户界面系统。
-
本文介绍如何使用Hue创建一个包含PySpark动作的Oozie工作流。
-
该工作流仅包含一个Spark动作,使用Python语言的PySpark库。
-
通过SparkSession设置Spark会话,支持Hive功能,并指定应用名称。
-
可以选择Spark的运行模式,默认使用Spark 1的库,若使用Spark 2需设置属性oozie.action.sharelib.for.spark=spark2。
-
需要在Oozie设置中配置一些变量,包括oozie.libpath和Spark的JAR包路径。
🏷️