选择连接策略的核心原则是避免shuffle和sort操作,首选的连接策略是hash连接。连接策略可通过连接提示进行控制,重要因素是连接数据集的大小。广播散列连接和洗牌散列连接是常用的连接策略。洗牌排列合并连接将两张大表按照join key分区洗牌并排序。笛卡尔积连接将两张大表进行分片,再进行笛卡尔积组装子分片。广播嵌套循环连接通过广播小表数据到每个Executor端,并使用内、外两个嵌套的for循环进行关联。
完成下面两步后,将自动完成登录并继续当前操作。