Hago 的 Spark on ACK 实践

原文约2400字,阅读约需6分钟。发表于:

长期以来,Hago 都是在 IDC 里运行大数据任务,以支撑上面的许多产品,从 2022 年开始,Hago 开始将大数据业务迁移上云,并以 Spark on ACK 的形式来运行,本文主要针对迁移过程进行介绍。

Hago是欢聚集团旗下的多人互动社交明星产品,迁移到阿里云的Serverless版本的ACK,降低了Kubernetes使用门槛,选择了存算分离的方案,通过OSS-HDFS服务方便Spark任务读取,选择了EMR Remote Shuffle Service来优化性能,不再需要提前准备扩容,任务不再需要排队,也不需要关心硬件故障问题。

相关推荐 去reddit讨论