小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
超越深渊:Poseidon项目追求零停机可靠性

DigitalOcean正在开发Poseidon,一个结合机器学习和生成性人工智能的预测系统,旨在识别即将崩溃的服务器节点。该系统通过分析大量数据和日志,提前发现硬件故障,从而提升云基础设施的可靠性。Poseidon的多阶段过滤机制有效减少了需要深入调查的节点数量,确保高效监控和快速响应。

超越深渊:Poseidon项目追求零停机可靠性

The DigitalOcean Blog
The DigitalOcean Blog · 2026-04-23T19:29:05Z
Lakebase零停机时间补丁管理 第1部分:预热

Lakebase通过冗余设计确保客户数据库的高可用性,实现自动故障转移和恢复。采用预热技术减少维护期间的性能下降,新架构结合无状态计算节点和共享存储,优化了预热过程,使数据库更新和安全补丁几乎无感知。

Lakebase零停机时间补丁管理 第1部分:预热

Databricks
Databricks · 2026-03-27T10:27:20Z
使用Eden实现从AWS到Redis Cloud的零停机时间Redis迁移

Eden是一款无停机、无需应用更改的Redis迁移工具,通过代理层持续处理流量,确保数据同步。测试表明,Eden在AWS到Redis Cloud的迁移中表现优异,完成时间约7分钟,且无应用中断,使Redis迁移更简单、安全。

使用Eden实现从AWS到Redis Cloud的零停机时间Redis迁移

Redis Blog
Redis Blog · 2026-02-19T00:00:00Z
­­­为 Direct Connect 维护事件构建弹性,最大限度减少停机时间

企业在依赖AWS Direct Connect的混合云环境中,需要构建高弹性网络架构,以应对维护事件。文章强调冗余与高可用性的重要性,确保业务连续性。建议启用BFD以缩短故障检测时间,并定期测试冗余链路,以验证网络弹性。

­­­为 Direct Connect 维护事件构建弹性,最大限度减少停机时间

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-24T09:59:20Z
Antony Pegg:使用 pgEdge 实现零停机 PostgreSQL 维护

pgEdge 提供零停机节点添加功能,支持 PostgreSQL 的无中断维护,包括版本升级和硬件更换,确保应用持续在线。该功能适用于单主和全球分布部署,简化数据库管理,支持高可用性组件,完全开源,避免供应商锁定。Spock 扩展实现多主复制,提升集群弹性和可扩展性。

Antony Pegg:使用 pgEdge 实现零停机 PostgreSQL 维护

Planet PostgreSQL
Planet PostgreSQL · 2025-12-12T06:02:57Z
在Valkey/Redis中无停机时间地轮换SSL/TLS证书

本文介绍了如何在Valkey/Redis部署中无停机时间地轮换SSL/TLS证书。首先备份当前证书,然后用新证书替换旧证书,最后通过CONFIG SET命令重新加载配置。确保所有节点执行此操作,以保持服务可用性,客户端需信任新证书以维持连接。

在Valkey/Redis中无停机时间地轮换SSL/TLS证书

Percona Database Performance Blog
Percona Database Performance Blog · 2025-12-10T13:49:42Z
从事件到洞察:在transformWithState中进行复杂状态处理与模式演变

transformWithStateInPandas API 使状态流处理中的模式演变变得无缝,确保历史状态可用且有价值,支持业务需求的持续变化,避免数据丢失和停机。

从事件到洞察:在transformWithState中进行复杂状态处理与模式演变

Databricks
Databricks · 2025-12-01T17:00:44Z
Stripe的零停机数据迁移平台实现毫秒级流量切换,支持PB级数据迁移

在2025年QCon旧金山会议上,Stripe工程师Jimmy Morzaria介绍了其零停机数据迁移平台,支持每秒500万查询,可靠性达到99.9995%。该平台通过六个阶段实现数据迁移,确保数据一致性和最小性能影响,支持从小数据集到数十TB的分片。迁移过程包括注册、数据导入、异步复制和流量切换,确保金融数据的安全性和完整性。Stripe选择内部构建该平台以满足安全和性能需求。

Stripe的零停机数据迁移平台实现毫秒级流量切换,支持PB级数据迁移

InfoQ
InfoQ · 2025-11-24T08:30:00Z
RHEL 10.1 软重启减少更新停机时间

红帽在KubeCon+CloudNativeCon北美发布了Red Hat Enterprise Linux 10.1,首次重大更新引入离线AI助手、更新的编程工具和Linux内核6.12 LTS。新特性包括“软重启”功能、可重复的容器构建和后量子密码学,增强了安全性和操作灵活性。

RHEL 10.1 软重启减少更新停机时间

The New Stack
The New Stack · 2025-11-18T20:00:34Z
DynamoDB DNS系统中的竞争条件:分析AWS US-EAST-1停机事件

10月19日至20日,AWS因DynamoDB故障发生大规模停机,影响多个服务。故障源于DNS管理系统缺陷,导致DynamoDB端点解析失败。AWS计划修复并加强系统保护。

DynamoDB DNS系统中的竞争条件:分析AWS US-EAST-1停机事件

InfoQ
InfoQ · 2025-11-15T10:46:00Z
守护数据安全:Aurora最短停机时间迁移到私有子网的终极攻略

随着企业对数据库安全性的重视,AWS上Aurora实例迁移至私有子网的需求增加。本文介绍了如何通过“修改数据库子网组”和“故障转移”方法,在最小停机时间内完成迁移,确保服务中断时间最短且端点配置不变。

守护数据安全:Aurora最短停机时间迁移到私有子网的终极攻略

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-09-25T15:36:07Z
大规模零停机关键云基础设施升级

在大规模系统中,定期升级和迁移至关重要。工程师应制定详细的测试和实施计划,避免在迁移中合并改进,以降低系统复杂性。投资自动化测试框架可降低风险,并需了解不可逆更改,制定回滚策略,以确保系统的安全性和性能。

大规模零停机关键云基础设施升级

InfoQ
InfoQ · 2025-08-18T11:00:00Z
Weekly Issue-《骆驼狮子小孩》

Heroku于6月10日发生重大故障,部分客户停机达24小时。故障原因是缺乏不可变性控制,自动化过程意外更改了生产环境,导致禁用的操作系统更新被启用,进而中断网络服务。建议使用独立域名提供状态页面,以防止类似问题发生。

Weekly Issue-《骆驼狮子小孩》

Yiran's Blog
Yiran's Blog · 2025-08-03T00:00:00Z
$9,000每分钟:这就是停机的平均成本

系统停机每分钟损失约9000美元,影响深远。停机不仅导致直接收入损失,还损害客户关系和竞争优势。企业需识别停机原因,实施负载测试、冗余架构和实时监控等防御策略,以降低风险并增强韧性。

$9,000每分钟:这就是停机的平均成本

DEV Community
DEV Community · 2025-05-29T16:45:38Z
GitHub Actions + AWS:轻松实现无停机时间的部署到S3、EC2和Lambda

使用GitHub Actions和AWS可以实现无停机时间的代码部署。通过配置S3、EC2和Lambda,开发者能够自动化部署,确保应用持续运行。利用版本控制和别名功能,便于快速回滚,提升部署信心。

GitHub Actions + AWS:轻松实现无停机时间的部署到S3、EC2和Lambda

DEV Community
DEV Community · 2025-05-04T21:22:22Z
常见的停机原因及网站监控如何提供帮助

网站监控帮助开发者及时发现问题,确保用户访问。通过Sentry监控,开发者可以监测应用的可用性、错误和性能,并及时接收警报。文章介绍了如何通过Node.js Express应用进行监控,识别过载、错误部署和依赖问题,同时强调安全漏洞检测。有效监控是应用稳定运行的关键。

常见的停机原因及网站监控如何提供帮助

Sentry Blog
Sentry Blog · 2025-04-29T00:00:00Z
在无停机时间的情况下迁移和重命名Google Cloud存储桶:安全策略 - 第1部分

文章讨论了将存储桶从项目1迁移到项目2的策略,强调遵循谷歌最佳实践以简化管理和控制成本。迁移过程包括创建新存储桶、复制数据和删除旧存储桶。为避免停机,提出了无停机时间的策略,通过创建临时存储桶来保持原存储桶名称。

在无停机时间的情况下迁移和重命名Google Cloud存储桶:安全策略 - 第1部分

DEV Community
DEV Community · 2025-04-25T19:19:49Z
理解网站理想的正常运行时间

正常运行时间的百分比对企业影响重大。99.9%的正常运行意味着每年停机约8.76小时,而99.99%则降至52.56分钟。不同业务对停机的容忍度不同,金融和医疗行业要求更高的正常运行时间。服务水平协议(SLA)应明确停机的定义、测量方法和补救措施,合理的正常运行时间应基于实际需求。

理解网站理想的正常运行时间

DEV Community
DEV Community · 2025-04-22T09:09:13Z
应对停机时间:确保项目顺利进行的关键策略

停机时间会影响自由职业和电子商务的项目进展及品牌声誉。了解停机原因(如服务器过载、硬件故障、软件问题和网络问题)并选择合适的托管解决方案(如VPS托管)至关重要。实施备份与恢复计划、监控网站性能和流量,可以有效减少停机时间,确保项目顺利进行。

应对停机时间:确保项目顺利进行的关键策略

DEV Community
DEV Community · 2025-04-11T18:05:30Z
应对停机时间:自由职业者如何高效克服托管难题

在一次网站发布前,我遇到服务器故障,经过联系支持团队,决定升级到VPS主机。尽管预算紧张,我意识到这是业务成长的关键。最终网站恢复正常,我认识到可靠主机的重要性,决定优先选择高质量的托管解决方案。

应对停机时间:自由职业者如何高效克服托管难题

DEV Community
DEV Community · 2025-04-11T05:01:29Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码