小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
Salesforce将1000多个EKS集群迁移至Karpenter以提升扩展速度和效率

Salesforce成功将1000多个EKS集群从Kubernetes Cluster Autoscaler迁移至Karpenter,提升了扩展速度和资源利用率,降低了运营成本。通过定制工具和自动化流程,解决了节点替换和工作负载调度的挑战,实现了80%的运营开销减少和5%的成本节省,为其他企业提供了自动化扩展的成功案例。

Salesforce将1000多个EKS集群迁移至Karpenter以提升扩展速度和效率

InfoQ
InfoQ · 2026-01-20T12:00:00Z

马斯克的Colossus 2超算集群已正式投入运行,成为全球首个1GW级超算,预计4月将升级至1.5GW,供电能力相当于75万户家庭。然而,高能耗可能导致美国13个州6700万居民在极端天气下面临停电风险,PJM电网运营商已考虑轮流停电以维持供需平衡。

马斯克最大算力中心建成了:全球首个GW级超算集群,再创世界纪录

量子位
量子位 · 2026-01-18T05:15:12Z
提升全球运营:掌握多集群Elastic部署与Fleet

分布式基础设施已成为全球企业的常态。数据存储去中心化主要受到数据主权、性能优化和系统韧性三大因素的驱动。各地区法律要求某些数据必须本地存储,以避免高昂的跨区域传输费用,并确保数据处理的快速性和可靠性。多集群设计增强了系统的韧性和本地自主性。

提升全球运营:掌握多集群Elastic部署与Fleet

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2026-01-16T00:00:00Z
Erlang集群的唯一标识管理

Erlang是一个强大的分布式平台,支持全局唯一进程标识。本文分析了Erlang/OTP代码,介绍了进程名称管理的实现,区分了本地和全局名称的注册方式,并强调了global模块在集群中的作用及其锁机制,以确保全局命名的一致性。

Erlang集群的唯一标识管理

Teach Talk
Teach Talk · 2026-01-13T02:31:31Z
Salesforce如何在其1000个EKS集群中从Cluster Autoscaler迁移到Karpenter

Salesforce成功将Kubernetes集群从传统的Cluster Autoscaler迁移到开源的Karpenter,提升了节点管理效率,减少了扩展延迟和资源浪费,降低了运营成本,实现了更高的灵活性和自助服务能力。

Salesforce如何在其1000个EKS集群中从Cluster Autoscaler迁移到Karpenter

AWS Architecture Blog
AWS Architecture Blog · 2026-01-12T20:03:32Z
RTCPilot:  一个 C++ 实现的支持跨平台和集群的开源 WebRTC SFU

RTCPilot 是一个开源的 WebRTC SFU,使用现代 C++ 实现,支持 Windows、Linux 和 macOS,具备高性能和集群扩展能力。构建需 C++17 及以上版本,使用 CMake 和相关依赖库,详细配置请参考文档。

RTCPilot:  一个 C++ 实现的支持跨平台和集群的开源 WebRTC SFU

实时互动网
实时互动网 · 2026-01-09T07:00:28Z
Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

Tensor Fusion是一种针对GPU集群的虚拟化和资源池解决方案,旨在提升集群利用率和降低推理延迟。它支持动态GPU池、低延迟推理、自动扩展和调度,适合高推理密度和多租户环境,有效处理多模型和多租户工作负载。

Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

云原生
云原生 · 2026-01-06T10:34:15Z

太初元碁与汉腾科技签署协议,推动高集成化算力基础设施建设。汉腾科技在江苏兴化投产年产十万台的自主算力服务器,首批产品集成龙芯中科处理器与AI加速卡,支持华北、华东智算中心,促进人工智能产业发展。

太初元碁与汉腾科技签署五大万卡集群项目建设协议 推动高集成化算力基础设施集群落地

量子位
量子位 · 2025-12-26T09:51:55Z
在升级到etcd v3.6时避免出现僵尸集群成员

在升级到etcd v3.6之前,必须先升级到v3.5.26或更高版本,以确保集群自动修复,避免出现“僵尸成员”问题。此问题源于旧版本的v2store与v3store不一致,导致已删除的节点重新出现。

在升级到etcd v3.6时避免出现僵尸集群成员

Kubernetes Blog
Kubernetes Blog · 2025-12-21T00:00:00Z
Kubernetes审计与事件:监控集群活动

本文摘自《Fluent Bit与Kubernetes》,讨论如何通过日志捕获Kubernetes应用事件,以衡量活动和行为。Kubernetes的日志管理由容器运行时负责,通常使用标准输出和错误输出。Kubernetes支持审计功能,允许追踪集群操作。通过Kubernetes事件插件,可以获取活动事件并纳入日志管道。配置审计日志时,应安全管理凭证,避免使用环境变量。

Kubernetes审计与事件:监控集群活动

The New Stack
The New Stack · 2025-12-19T21:00:18Z

在现代互联网中,HTTPS 的性能和安全性至关重要。TLS 会话复用是提升性能的关键,而 TLS session ticket key 的管理常被忽视。lua-resty-tls-session 工具通过动态热更新和滑动窗口策略,确保密钥一致性,提升系统安全性与性能,降低运维成本。

在高可用 HTTPS 集群中,如何解决 TLS Session Key 轮转问题

OpenResty 官方博客
OpenResty 官方博客 · 2025-12-19T00:00:00Z
为MongoDB集群引入Percona负载生成器:模拟您实际应用的基准工具

许多数据库管理员发现传统的MongoDB性能测试工具在真实用户流量下效果不佳。新工具PLGM专注于模拟真实应用负载,支持用户自定义模式和查询,生成真实数据,简化配置,适合现代工程团队使用。

为MongoDB集群引入Percona负载生成器:模拟您实际应用的基准工具

Percona Database Performance Blog
Percona Database Performance Blog · 2025-12-18T13:38:13Z

国产AI芯片发展面临模型覆盖和集群规模的挑战。王雁鹏指出,芯片需支持从百亿到万亿参数的训练,并解决集群的稳定性、扩展性和模型生态问题。同时,MoE模型和多模态模型的应用也带来了通信优化和系统协同设计的新挑战。

国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026

量子位
量子位 · 2025-12-18T04:37:30Z

每个Silo在集群中都是平等的,既可以接收客户端的请求,也可以执行Grain的激活和处理。:当某个Silo发生故障时,原本在该Silo上运行的Grain会自动在集群中其他健康的Silo上重新激活,实现故障转移。(Orleans运行时实例)组成的集合,这些Silo协同工作,共同承载应用程序的负载。:Orleans运行时自动将Grain激活请求分布到集群中的各个Silo,实现负载的均衡分布。集群...

构建高可用Orleans应用:集群配置与容灾机制详解

dotNET跨平台
dotNET跨平台 · 2025-12-15T23:50:43Z
vLLM生产栈 - Kubernetes原生集群部署和社区驱动性能优化的参考系统

vLLM生产栈是一个参考系统,旨在提供Kubernetes原生集群的部署和性能优化。它结合了容器编排、调度策略、GPU资源管理和监控,支持在线推理、批处理和并发模型服务。

vLLM生产栈 - Kubernetes原生集群部署和社区驱动性能优化的参考系统

云原生
云原生 · 2025-12-14T08:28:14Z
谷歌云展示130,000节点GKE集群的巨大Kubernetes规模

谷歌Kubernetes引擎团队成功构建了一个130,000节点的Kubernetes集群,成为最大公开集群,展示了云原生基础设施的进步,支持大规模AI和数据工作负载。通过重构控制平面和存储后端,谷歌用自定义的Spanner系统替代传统的etcd数据存储,显著提升了可扩展性和一致性,显示了Kubernetes满足高计算需求的潜力。

谷歌云展示130,000节点GKE集群的巨大Kubernetes规模

InfoQ
InfoQ · 2025-12-10T12:00:00Z
Discord如何将其机器学习平台从单GPU工作流扩展到共享Ray集群

Discord重建了机器学习平台,通过标准化Ray和Kubernetes实现分布式训练自动化,广告排名指标提升200%。Uber和Spotify也在进行类似转型,强调平台的可预测性和一致性。尽管有成功案例,但内部平台复杂性引发了设计与维护的权衡警示。

Discord如何将其机器学习平台从单GPU工作流扩展到共享Ray集群

InfoQ
InfoQ · 2025-12-03T11:34:00Z

高可用集群(HA Cluster)是基于Pacemaker和Corosync技术的Linux集群实现,确保服务持续运行,避免单点故障,提升系统可靠性。构建时需遵循冗余设计、严格测试和监控告警原则。

Linux集群的最常见实现方法:高可用集群(Pacemaker/Corosync)全解析

极客技术博客’s Blog
极客技术博客’s Blog · 2025-12-02T10:08:12Z
Okta如何通过Argo CD将Kubernetes集群从12个扩展到1,000个

Okta的Auth0平台在私有云支持上遇到问题,转向开源GitOps项目Argo CD。经过五年努力,Okta成功将集群规模从十个扩展到一千个。Argo CD通过监控Git确保Kubernetes集群状态一致,尽管面临挑战,仍展现出强大能力。

Okta如何通过Argo CD将Kubernetes集群从12个扩展到1,000个

The New Stack
The New Stack · 2025-12-01T22:00:31Z
在活动Patroni集群中手动启动PostgreSQL服务的影响

在Patroni集群中,手动启动PostgreSQL可能导致数据一致性风险,包括时间线分歧和数据丢失。因此,应始终通过Patroni启动PostgreSQL,以避免DBA的麻烦。

在活动Patroni集群中手动启动PostgreSQL服务的影响

Percona Database Performance Blog
Percona Database Performance Blog · 2025-12-01T14:12:54Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码