米哈游大数据云原生实践
💡
原文中文,约10800字,阅读约需26分钟。
📝
内容提要
米哈游数据平台组分享了将大数据架构向云原生化升级的目标、探索和实践,通过Spark on K8s架构获得弹性计算、成本节约和存算分离的价值。他们采用了OSS-HDFS作为底层存储,阿里云容器服务ACK作为计算集群,通过ECI实例实现弹性和降低成本。他们还使用Celeborn解决Spark在K8s上的数据Shuffle问题。未来,他们将继续优化整体架构,实现更细粒度的资源管理和精准的成本控制。
🎯
关键要点
- 米哈游数据平台组分享了大数据架构向云原生化升级的目标和实践。
- 通过Spark on K8s架构实现弹性计算、成本节约和存算分离的价值。
- 采用OSS-HDFS作为底层存储,阿里云容器服务ACK作为计算集群。
- 利用ECI实例实现弹性和降低成本,成本节约达50%。
- Spark在K8s上运行的基本原理是Pod作为最小调度单元,Driver和Executor都是独立Pod。
- Spark任务的执行流程包括任务提交、Driver启动和Executor分配。
- 使用spark-k8s-cli进行任务提交,支持多种增强功能。
- Celeborn解决了Spark在K8s上的数据Shuffle问题,提升了数据读写性能。
- Kyuubi在K8s上支持SparkSQL Adhoc查询,解决了Yarn资源不足的问题。
- K8s Manager实现了对Spark任务和资源的监控告警。
- 调度任务支持Yarn、K8s、Auto三种执行策略,未来将所有任务迁移至K8s。
- 解决了弹性网卡释放慢、Watcher失效、任务卡死等问题。
- 未来将持续优化云原生架构,提升系统承载与容灾能力。
➡️