💡
原文英文,约600词,阅读约需2分钟。
📝
内容提要
Pinterest将Hadoop数据平台替换为基于Kubernetes的Moka系统,运行Spark于AWS EKS。Moka支持容器化作业隔离和ARM实例,提升调度效率并降低基础设施成本。Pinterest还开发了新服务,使用Apache YuniKorn进行调度,迁移存储至S3,并整合Apache Celeborn以维持性能。Moka通过资源管理和动态优先级调度优化数据处理工作负载。
🎯
关键要点
- Pinterest将Hadoop数据平台替换为基于Kubernetes的Moka系统,运行Spark于AWS EKS。
- Moka支持容器化作业隔离,支持ARM实例,提升调度效率并降低基础设施成本。
- Pinterest选择Kubernetes以支持容器编排和安全性,适应现代基础设施实践。
- Moka通过容器化隔离整合不同安全需求的工作负载,减少多个集群的需求。
- Pinterest开发了新服务,如Archer用于作业提交,采用Apache YuniKorn进行调度,迁移存储至S3。
- Moka的初始设计中,Spinner将调度工作流分解为单个作业提交,并发送至Archer。
- Pinterest使用Spark Operator在Kubernetes上原生执行Spark,并利用Apache YuniKorn进行批量调度。
- YuniKorn提供基于队列的调度、应用配额和抢占,动态优先级调度优化资源管理。
- Archer跟踪作业状态,系统将日志上传至S3,用户可通过Moka UI访问作业界面和历史日志。
➡️