Hago 的 Spark on ACK 实践
💡
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
Hago是欢聚集团旗下的多人互动社交明星产品,迁移到阿里云的Serverless版本的ACK,降低了Kubernetes使用门槛,选择了存算分离的方案,通过OSS-HDFS服务方便Spark任务读取,选择了EMR Remote Shuffle Service来优化性能,不再需要提前准备扩容,任务不再需要排队,也不需要关心硬件故障问题。
🎯
关键要点
-
Hago是欢聚集团旗下的多人互动社交产品,提供多种社交玩法。
-
Hago在技术上实现了自研音视频技术,提供稳定的数字人服务。
-
Hago于2022年开始将大数据业务迁移到云端,采用Spark on ACK的形式。
-
在IDC中,Hago面临资源限制、扩容时效性和资源利用率问题。
-
Hago选择使用阿里云的Serverless版本ACK来降低Kubernetes使用门槛。
-
ACK Serverless集群支持按需付费,用户无需管理底层基础设施。
-
Hago采用存算分离方案,将数据存储在OSS中,方便Spark任务读取。
-
EMR推出的Remote Shuffle Service优化了Spark Shuffle性能问题。
-
迁移后,Hago实现了快速扩容、任务不再排队和无硬件故障担忧。
➡️