小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
超越深渊:Poseidon项目追求零停机可靠性

DigitalOcean正在开发Poseidon,一个结合机器学习和生成性人工智能的预测系统,旨在识别即将崩溃的服务器节点。该系统通过分析大量数据和日志,提前发现硬件故障,从而提升云基础设施的可靠性。Poseidon的多阶段过滤机制有效减少了需要深入调查的节点数量,确保高效监控和快速响应。

超越深渊:Poseidon项目追求零停机可靠性

The DigitalOcean Blog
The DigitalOcean Blog · 2026-04-23T19:29:05Z
Lakebase零停机时间补丁管理 第1部分:预热

Lakebase通过冗余设计确保客户数据库的高可用性,实现自动故障转移和恢复。采用预热技术减少维护期间的性能下降,新架构结合无状态计算节点和共享存储,优化了预热过程,使数据库更新和安全补丁几乎无感知。

Lakebase零停机时间补丁管理 第1部分:预热

Databricks
Databricks · 2026-03-27T10:27:20Z
使用Eden实现从AWS到Redis Cloud的零停机时间Redis迁移

Eden是一款无停机、无需应用更改的Redis迁移工具,通过代理层持续处理流量,确保数据同步。测试表明,Eden在AWS到Redis Cloud的迁移中表现优异,完成时间约7分钟,且无应用中断,使Redis迁移更简单、安全。

使用Eden实现从AWS到Redis Cloud的零停机时间Redis迁移

Redis Blog
Redis Blog · 2026-02-19T00:00:00Z
­­­为 Direct Connect 维护事件构建弹性,最大限度减少停机时间

企业在依赖AWS Direct Connect的混合云环境中,需要构建高弹性网络架构,以应对维护事件。文章强调冗余与高可用性的重要性,确保业务连续性。建议启用BFD以缩短故障检测时间,并定期测试冗余链路,以验证网络弹性。

­­­为 Direct Connect 维护事件构建弹性,最大限度减少停机时间

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-24T09:59:20Z
Antony Pegg:使用 pgEdge 实现零停机 PostgreSQL 维护

pgEdge 提供零停机节点添加功能,支持 PostgreSQL 的无中断维护,包括版本升级和硬件更换,确保应用持续在线。该功能适用于单主和全球分布部署,简化数据库管理,支持高可用性组件,完全开源,避免供应商锁定。Spock 扩展实现多主复制,提升集群弹性和可扩展性。

Antony Pegg:使用 pgEdge 实现零停机 PostgreSQL 维护

Planet PostgreSQL
Planet PostgreSQL · 2025-12-12T06:02:57Z
在Valkey/Redis中无停机时间地轮换SSL/TLS证书

本文介绍了如何在Valkey/Redis部署中无停机时间地轮换SSL/TLS证书。首先备份当前证书,然后用新证书替换旧证书,最后通过CONFIG SET命令重新加载配置。确保所有节点执行此操作,以保持服务可用性,客户端需信任新证书以维持连接。

在Valkey/Redis中无停机时间地轮换SSL/TLS证书

Percona Database Performance Blog
Percona Database Performance Blog · 2025-12-10T13:49:42Z
从事件到洞察:在transformWithState中进行复杂状态处理与模式演变

transformWithStateInPandas API 使状态流处理中的模式演变变得无缝,确保历史状态可用且有价值,支持业务需求的持续变化,避免数据丢失和停机。

从事件到洞察:在transformWithState中进行复杂状态处理与模式演变

Databricks
Databricks · 2025-12-01T17:00:44Z
Stripe的零停机数据迁移平台实现毫秒级流量切换,支持PB级数据迁移

在2025年QCon旧金山会议上,Stripe工程师Jimmy Morzaria介绍了其零停机数据迁移平台,支持每秒500万查询,可靠性达到99.9995%。该平台通过六个阶段实现数据迁移,确保数据一致性和最小性能影响,支持从小数据集到数十TB的分片。迁移过程包括注册、数据导入、异步复制和流量切换,确保金融数据的安全性和完整性。Stripe选择内部构建该平台以满足安全和性能需求。

Stripe的零停机数据迁移平台实现毫秒级流量切换,支持PB级数据迁移

InfoQ
InfoQ · 2025-11-24T08:30:00Z
RHEL 10.1 软重启减少更新停机时间

红帽在KubeCon+CloudNativeCon北美发布了Red Hat Enterprise Linux 10.1,首次重大更新引入离线AI助手、更新的编程工具和Linux内核6.12 LTS。新特性包括“软重启”功能、可重复的容器构建和后量子密码学,增强了安全性和操作灵活性。

RHEL 10.1 软重启减少更新停机时间

The New Stack
The New Stack · 2025-11-18T20:00:34Z
DynamoDB DNS系统中的竞争条件:分析AWS US-EAST-1停机事件

10月19日至20日,AWS因DynamoDB故障发生大规模停机,影响多个服务。故障源于DNS管理系统缺陷,导致DynamoDB端点解析失败。AWS计划修复并加强系统保护。

DynamoDB DNS系统中的竞争条件:分析AWS US-EAST-1停机事件

InfoQ
InfoQ · 2025-11-15T10:46:00Z
守护数据安全:Aurora最短停机时间迁移到私有子网的终极攻略

随着企业对数据库安全性的重视,AWS上Aurora实例迁移至私有子网的需求增加。本文介绍了如何通过“修改数据库子网组”和“故障转移”方法,在最小停机时间内完成迁移,确保服务中断时间最短且端点配置不变。

守护数据安全:Aurora最短停机时间迁移到私有子网的终极攻略

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-09-25T15:36:07Z
大规模零停机关键云基础设施升级

在大规模系统中,定期升级和迁移至关重要。工程师应制定详细的测试和实施计划,避免在迁移中合并改进,以降低系统复杂性。投资自动化测试框架可降低风险,并需了解不可逆更改,制定回滚策略,以确保系统的安全性和性能。

大规模零停机关键云基础设施升级

InfoQ
InfoQ · 2025-08-18T11:00:00Z
Weekly Issue-《骆驼狮子小孩》

Heroku于6月10日发生重大故障,部分客户停机达24小时。故障原因是缺乏不可变性控制,自动化过程意外更改了生产环境,导致禁用的操作系统更新被启用,进而中断网络服务。建议使用独立域名提供状态页面,以防止类似问题发生。

Weekly Issue-《骆驼狮子小孩》

Yiran's Blog
Yiran's Blog · 2025-08-03T00:00:00Z
$9,000每分钟:这就是停机的平均成本

系统停机每分钟损失约9000美元,影响深远。停机不仅导致直接收入损失,还损害客户关系和竞争优势。企业需识别停机原因,实施负载测试、冗余架构和实时监控等防御策略,以降低风险并增强韧性。

$9,000每分钟:这就是停机的平均成本

DEV Community
DEV Community · 2025-05-29T16:45:38Z
GitHub Actions + AWS:轻松实现无停机时间的部署到S3、EC2和Lambda

使用GitHub Actions和AWS可以实现无停机时间的代码部署。通过配置S3、EC2和Lambda,开发者能够自动化部署,确保应用持续运行。利用版本控制和别名功能,便于快速回滚,提升部署信心。

GitHub Actions + AWS:轻松实现无停机时间的部署到S3、EC2和Lambda

DEV Community
DEV Community · 2025-05-04T21:22:22Z
常见的停机原因及网站监控如何提供帮助

网站监控帮助开发者及时发现问题,确保用户访问。通过Sentry监控,开发者可以监测应用的可用性、错误和性能,并及时接收警报。文章介绍了如何通过Node.js Express应用进行监控,识别过载、错误部署和依赖问题,同时强调安全漏洞检测。有效监控是应用稳定运行的关键。

常见的停机原因及网站监控如何提供帮助

Sentry Blog
Sentry Blog · 2025-04-29T00:00:00Z
在无停机时间的情况下迁移和重命名Google Cloud存储桶:安全策略 - 第1部分

文章讨论了将存储桶从项目1迁移到项目2的策略,强调遵循谷歌最佳实践以简化管理和控制成本。迁移过程包括创建新存储桶、复制数据和删除旧存储桶。为避免停机,提出了无停机时间的策略,通过创建临时存储桶来保持原存储桶名称。

在无停机时间的情况下迁移和重命名Google Cloud存储桶:安全策略 - 第1部分

DEV Community
DEV Community · 2025-04-25T19:19:49Z
理解网站理想的正常运行时间

正常运行时间的百分比对企业影响重大。99.9%的正常运行意味着每年停机约8.76小时,而99.99%则降至52.56分钟。不同业务对停机的容忍度不同,金融和医疗行业要求更高的正常运行时间。服务水平协议(SLA)应明确停机的定义、测量方法和补救措施,合理的正常运行时间应基于实际需求。

理解网站理想的正常运行时间

DEV Community
DEV Community · 2025-04-22T09:09:13Z
应对停机时间:确保项目顺利进行的关键策略

停机时间会影响自由职业和电子商务的项目进展及品牌声誉。了解停机原因(如服务器过载、硬件故障、软件问题和网络问题)并选择合适的托管解决方案(如VPS托管)至关重要。实施备份与恢复计划、监控网站性能和流量,可以有效减少停机时间,确保项目顺利进行。

应对停机时间:确保项目顺利进行的关键策略

DEV Community
DEV Community · 2025-04-11T18:05:30Z
应对停机时间:自由职业者如何高效克服托管难题

在一次网站发布前,我遇到服务器故障,经过联系支持团队,决定升级到VPS主机。尽管预算紧张,我意识到这是业务成长的关键。最终网站恢复正常,我认识到可靠主机的重要性,决定优先选择高质量的托管解决方案。

应对停机时间:自由职业者如何高效克服托管难题

DEV Community
DEV Community · 2025-04-11T05:01:29Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码