Koordinator v1.4.0版本发布,新增Kubernetes与YARN负载混部、NUMA拓扑对齐策略、CPU归一化和冷内存上报等特性。增强了弹性配额管理、宿主机非容器化应用的QoS管理和重调度防护策略。旨在支持企业级Kubernetes集群环境,提供更多计算负载类型支持和灵活的资源管理机制。
Koordinator是一个开源项目,旨在提升应用服务质量和资源使用效率。小红书通过混部技术提高了集群资源利用率和降低了资源成本。未来的工作将围绕混合云架构的统一资源调度能力展开。
Koordinator是一个开源项目,支持K8s生态内的在离线混部。小红书与阿里云、蚂蚁金服合作启动了Hadoop YARN与K8s混部项目,已在小红书生产环境使用。通过打通K8s调度器与YARN调度器之间的资源视图,实现了Spark任务在在线闲时资源上稳定运行,提升资源利用率并降低成本。
Koordinator是阿里云开源的调度系统,支持多种工作负载的混部调度,具备弹性Quota调度和精细化资源管理能力。与KubeDL联合使用可解决大模型训练的调度需求。Koordinator还提出了精细化设备管理机制,未来将引入NRI/CDI等机制解决设备管理问题。
本文介绍使用wrk压测Nginx应用的方法,并提到在Kubernetes集群中可能存在资源争抢问题,可使用Koordinator的CPU编排策略解决,实验结果表明其有效改善应用性能。
Koordinator v1.2增强了硬件拓扑感知调度、重调度器的可观测性和可追溯性,以及GPU资源调度能力。12位新开发者参与,未来计划包括更多功能的规划。
Koordinator 可以提升容器性能,降低集群资源成本。通过混部、资源画像、调度优化等技术能力,能够提高延迟敏感的工作负载和批处理作业的运行效率和可靠性,优化集群资源使用效率。
龙蜥社区的Group Identity技术可以有效提升CPU资源的利用率,支持热升级,欢迎技术人员、开源爱好者和读者加入。
Koordinator 旨在为用户提供完整的混部工作负载编排、混部资源调度、混部资源隔离及性能调优解决方案,帮助用户提高延迟敏感服务的运行性能,挖掘空闲节点资源并分配给真正有需要的计算任务,从而提高全局的资源利用效率。
与众多互联网公司一样,爱奇艺常见的负载类型包括业务应用、数据库&中间件以及离线任务。其中业务应用包括有状态应用和无状态应用,无状态应用可以借助运维平台在业务团队和运维团队之间做比较清晰的职责划分,适合混部;而有状态应用较为复杂,混部时的运行质量难以保证。数据库和缓存目前并没有运行在混部集群中。
在这个版本中着重建设了机器学习、大数据场景需要的任务调度能力,例如 Coscheduling、ElasticQuota 和精细化的 GPU 共享调度能力。并在调度问题诊断分析方面得到了增强,重调度器也极大的提升了安全性,降低了重调度的风险。
相较于上一个版本 0.5,新版本进一步完善了 CPU 精细化编排能力,更好的兼容原生用法;支持了资源预留的能力,补齐了调度原子语意缺失;发布了全新的重调度框架,支持用户灵活的扩展自定义插件。......
完成下面两步后,将自动完成登录并继续当前操作。