小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
Netflix自动化RDS PostgreSQL到Aurora PostgreSQL的迁移,覆盖400个生产集群

Netflix开发了一种自动化平台,将Amazon RDS PostgreSQL数据库迁移至Amazon Aurora PostgreSQL,降低了运营风险和停机时间。该系统支持服务团队通过自助工作流发起迁移,并确保复制验证、切换控制和回滚保护,确保数据一致性和高效性。

Netflix自动化RDS PostgreSQL到Aurora PostgreSQL的迁移,覆盖400个生产集群

InfoQ
InfoQ · 2026-03-09T15:00:00Z
为什么当仪表板看起来正常时,你的Kubernetes集群还在添加节点?

Yasmin Rajabi是CloudBolt Software的首席运营官,因其在FinOps和Kubernetes社区的贡献而受到认可。她的工程、产品领导和运营背景使她对行业挑战有深入理解。

为什么当仪表板看起来正常时,你的Kubernetes集群还在添加节点?

The New Stack
The New Stack · 2026-03-08T15:10:06Z
Kubernetes的自我修复是如何工作的?通过破坏真实集群来理解自我修复

本文介绍了KubeLab,一个开源实验室,模拟七种故障以观察Kubernetes的自我修复能力。通过实际操作,用户将学习识别和处理生产环境中的故障模式。

Kubernetes的自我修复是如何工作的?通过破坏真实集群来理解自我修复

freeCodeCamp.org
freeCodeCamp.org · 2026-03-06T14:43:26Z
肖恩·托马斯:使用Patroni构建高可用Postgres集群——第一部分:etcd

本文介绍了如何构建Patroni集群,重点在于etcd的安装与配置。首先需创建三台Debian虚拟机并安装etcd,配置完成后验证集群状态,确保所有节点正常工作。三节点集群是实现高可用性的基础,后续将探讨Patroni的集成。

肖恩·托马斯:使用Patroni构建高可用Postgres集群——第一部分:etcd

Planet PostgreSQL
Planet PostgreSQL · 2026-03-06T07:48:55Z
谷歌提升GKE集群节点池自动创建速度

谷歌云优化了GKE的节点自动配置功能,显著缩短了Kubernetes集群新节点池的配置时间,提高了高并发计算的响应速度和节点创建效率,确保动态环境中的高可用性。这些改进使GKE在性能上更接近其他工具,适合多云策略的高性能计算需求。

谷歌提升GKE集群节点池自动创建速度

InfoQ
InfoQ · 2026-03-03T08:00:00Z
Cilium十周年:更强的加密、更安全的政策和更清晰的可见性以支持大规模集群

Cilium 1.19发布,庆祝十年发展,专注于安全加固和网络政策优化。新版本引入严格的加密模式,确保节点间流量加密,满足金融和公共部门需求。同时改进了多集群设置和可观察性,支持AI工作负载,增强安全性和可调试性。

Cilium十周年:更强的加密、更安全的政策和更清晰的可见性以支持大规模集群

InfoQ
InfoQ · 2026-02-25T23:00:00Z
构建Prometheus:后端聚合如何支持千兆瓦级AI集群

后端聚合(BAG)在Meta的Prometheus AI集群中至关重要,连接数千个GPU,支持1千兆瓦的容量。BAG通过分布式架构和模块化硬件,确保高性能和可靠性,满足未来需求,推动Meta全球网络的创新与扩展。

构建Prometheus:后端聚合如何支持千兆瓦级AI集群

Engineering at Meta
Engineering at Meta · 2026-02-09T17:00:33Z

本文分析了多机多盘 MinIO 集群在不同纠删码配置下的性能表现,探讨了这些配置对数据存储和访问速度的影响。

多机多盘 MinIO 集群在不同纠删码配置下的性能测试

陈少文的博客
陈少文的博客 · 2026-02-08T00:00:00Z
Kubernetes遥测功能完全危害集群

Kubernetes存在一个漏洞,允许具有读取权限的用户通过特定服务账户访问Kubelet,执行任意命令。安全研究员Graham Helton建议审查RBAC策略并实施网络政策以防止攻击。

Kubernetes遥测功能完全危害集群

The New Stack
The New Stack · 2026-01-28T18:30:42Z
最强开源模型易主?Kimi 发布 k2.5 用 Agent 集群解决长文本+视觉生成

月之暗面发布了开源模型Kimi k2.5,称其为最强大的开源模型。该模型基于1.5T混合视觉与文本预训练,具备视觉智能体系统,支持1500次并行工具调用,显著提升任务执行效率。Kimi k2.5能够从自然语言生成完整前端界面,并具备视觉调试能力,成为开源界的新王。

最强开源模型易主?Kimi 发布 k2.5 用 Agent 集群解决长文本+视觉生成

爱范儿
爱范儿 · 2026-01-28T08:59:01Z
Salesforce将1000多个EKS集群迁移至Karpenter以提升扩展速度和效率

Salesforce成功将1000多个EKS集群从Kubernetes Cluster Autoscaler迁移至Karpenter,提升了扩展速度和资源利用率,降低了运营成本。通过定制工具和自动化流程,解决了节点替换和工作负载调度的挑战,实现了80%的运营开销减少和5%的成本节省,为其他企业提供了自动化扩展的成功案例。

Salesforce将1000多个EKS集群迁移至Karpenter以提升扩展速度和效率

InfoQ
InfoQ · 2026-01-20T12:00:00Z

马斯克的Colossus 2超算集群已正式投入运行,成为全球首个1GW级超算,预计4月将升级至1.5GW,供电能力相当于75万户家庭。然而,高能耗可能导致美国13个州6700万居民在极端天气下面临停电风险,PJM电网运营商已考虑轮流停电以维持供需平衡。

马斯克最大算力中心建成了:全球首个GW级超算集群,再创世界纪录

量子位
量子位 · 2026-01-18T05:15:12Z
提升全球运营:掌握多集群Elastic部署与Fleet

分布式基础设施已成为全球企业的常态。数据存储去中心化主要受到数据主权、性能优化和系统韧性三大因素的驱动。各地区法律要求某些数据必须本地存储,以避免高昂的跨区域传输费用,并确保数据处理的快速性和可靠性。多集群设计增强了系统的韧性和本地自主性。

提升全球运营:掌握多集群Elastic部署与Fleet

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2026-01-16T00:00:00Z
Erlang集群的唯一标识管理

Erlang是一个强大的分布式平台,支持全局唯一进程标识。本文分析了Erlang/OTP代码,介绍了进程名称管理的实现,区分了本地和全局名称的注册方式,并强调了global模块在集群中的作用及其锁机制,以确保全局命名的一致性。

Erlang集群的唯一标识管理

Teach Talk
Teach Talk · 2026-01-13T02:31:31Z
Salesforce如何在其1000个EKS集群中从Cluster Autoscaler迁移到Karpenter

Salesforce成功将Kubernetes集群从传统的Cluster Autoscaler迁移到开源的Karpenter,提升了节点管理效率,减少了扩展延迟和资源浪费,降低了运营成本,实现了更高的灵活性和自助服务能力。

Salesforce如何在其1000个EKS集群中从Cluster Autoscaler迁移到Karpenter

AWS Architecture Blog
AWS Architecture Blog · 2026-01-12T20:03:32Z
RTCPilot:  一个 C++ 实现的支持跨平台和集群的开源 WebRTC SFU

RTCPilot 是一个开源的 WebRTC SFU,使用现代 C++ 实现,支持 Windows、Linux 和 macOS,具备高性能和集群扩展能力。构建需 C++17 及以上版本,使用 CMake 和相关依赖库,详细配置请参考文档。

RTCPilot:  一个 C++ 实现的支持跨平台和集群的开源 WebRTC SFU

实时互动网
实时互动网 · 2026-01-09T07:00:28Z
Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

Tensor Fusion是一种针对GPU集群的虚拟化和资源池解决方案,旨在提升集群利用率和降低推理延迟。它支持动态GPU池、低延迟推理、自动扩展和调度,适合高推理密度和多租户环境,有效处理多模型和多租户工作负载。

Tensor Fusion - 一种开源的GPU虚拟化和资源池解决方案,旨在提升集群利用率...

云原生
云原生 · 2026-01-06T10:34:15Z

太初元碁与汉腾科技签署协议,推动高集成化算力基础设施建设。汉腾科技在江苏兴化投产年产十万台的自主算力服务器,首批产品集成龙芯中科处理器与AI加速卡,支持华北、华东智算中心,促进人工智能产业发展。

太初元碁与汉腾科技签署五大万卡集群项目建设协议 推动高集成化算力基础设施集群落地

量子位
量子位 · 2025-12-26T09:51:55Z
在升级到etcd v3.6时避免出现僵尸集群成员

在升级到etcd v3.6之前,必须先升级到v3.5.26或更高版本,以确保集群自动修复,避免出现“僵尸成员”问题。此问题源于旧版本的v2store与v3store不一致,导致已删除的节点重新出现。

在升级到etcd v3.6时避免出现僵尸集群成员

Kubernetes Blog
Kubernetes Blog · 2025-12-21T00:00:00Z
Kubernetes审计与事件:监控集群活动

本文摘自《Fluent Bit与Kubernetes》,讨论如何通过日志捕获Kubernetes应用事件,以衡量活动和行为。Kubernetes的日志管理由容器运行时负责,通常使用标准输出和错误输出。Kubernetes支持审计功能,允许追踪集群操作。通过Kubernetes事件插件,可以获取活动事件并纳入日志管道。配置审计日志时,应安全管理凭证,避免使用环境变量。

Kubernetes审计与事件:监控集群活动

The New Stack
The New Stack · 2025-12-19T21:00:18Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码