Hago 的 Spark on ACK 实践

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

Hago是欢聚集团旗下的多人互动社交明星产品,迁移到阿里云的Serverless版本的ACK,降低了Kubernetes使用门槛,选择了存算分离的方案,通过OSS-HDFS服务方便Spark任务读取,选择了EMR Remote Shuffle Service来优化性能,不再需要提前准备扩容,任务不再需要排队,也不需要关心硬件故障问题。

🎯

关键要点

  • Hago是欢聚集团旗下的多人互动社交产品,提供多种社交玩法。

  • Hago在技术上实现了自研音视频技术,提供稳定的数字人服务。

  • Hago于2022年开始将大数据业务迁移到云端,采用Spark on ACK的形式。

  • 在IDC中,Hago面临资源限制、扩容时效性和资源利用率问题。

  • Hago选择使用阿里云的Serverless版本ACK来降低Kubernetes使用门槛。

  • ACK Serverless集群支持按需付费,用户无需管理底层基础设施。

  • Hago采用存算分离方案,将数据存储在OSS中,方便Spark任务读取。

  • EMR推出的Remote Shuffle Service优化了Spark Shuffle性能问题。

  • 迁移后,Hago实现了快速扩容、任务不再排队和无硬件故障担忧。

➡️

继续阅读