Databricks ·

Databricks的智能Kubernetes负载均衡

💡 原文英文，约1600词，阅读约需6分钟。

📝

内容提要

在Databricks，我们开发了智能客户端负载均衡系统，优化Kubernetes中的服务间通信，解决了默认负载均衡的性能和可靠性问题。通过实时服务发现，实现了基于应用层的负载均衡，降低了尾延迟，提高了资源利用率，并支持更复杂的负载均衡策略。

🎯

🔎

Databricks的智能客户端负载均衡系统通过实时服务发现和应用层负载均衡，显著降低了尾延迟并提高了资源利用率。这种方法不仅解决了传统Kubernetes负载均衡的局限性，还支持更复杂的路由策略，使得服务间通信更加高效和可靠。

传统的Kubernetes负载均衡主要依赖于Layer 4的TCP/IP协议，无法针对HTTP/2等应用层协议进行智能决策。而Databricks的新系统在应用层进行负载均衡，能够根据实时的服务健康状态和流量情况动态调整路由，避免了流量不均和资源浪费的问题。

Databricks的系统支持多种高级路由策略，如区域亲和性路由和Power of Two Choices。这些策略不仅优化了流量分配，还能有效减少跨区域网络延迟，提升整体服务性能，尤其在地理分布广泛的Kubernetes集群中表现尤为突出。

❓

该系统解决了Kubernetes默认负载均衡在性能和可靠性方面的局限性，尤其是在高性能服务间通信中，降低了尾延迟，提高了资源利用率。

该系统采用基于应用层的客户端负载均衡，支持实时服务发现，动态更新健康端点，实现高效的负载均衡。

Databricks的系统支持更复杂的负载均衡策略，如基于区域的路由，能够在每个请求上做出智能决策，减少尾延迟并提高资源利用率。

Power of Two Choices算法随机选择两个后端服务器，然后选择负载较低的一个，能够有效实现均匀的流量分配。

该系统支持区域亲和性路由，优先选择本地区域的服务，必要时智能地将流量转移到其他健康区域，以确保高可用性和一致性能。

该系统通过xDS API与Envoy集成，管理外部流量并确保内部和外部路由的一致性，提供实时的后端端点元数据。

🏷️