小红花·文摘

死锁是Postgres数据库中多个事务相互等待锁的情况，导致无法继续执行。为避免死锁，建议按一致顺序处理事务，缩短事务时间，并在应用中实现带有退避和抖动的重试逻辑。使用Traffic Control可以进一步保护数据库，减少死锁发生的可能性。优化查询和监控错误是确保数据库健康的重要措施。

死锁与停机时间

PlanetScale - Blog · 2026-07-08T00:00:00Z

DigitalOcean正在开发Poseidon，一个结合机器学习和生成性人工智能的预测系统，旨在识别即将崩溃的服务器节点。该系统通过分析大量数据和日志，提前发现硬件故障，从而提升云基础设施的可靠性。Poseidon的多阶段过滤机制有效减少了需要深入调查的节点数量，确保高效监控和快速响应。

超越深渊：Poseidon项目追求零停机可靠性

The DigitalOcean Blog · 2026-04-23T19:29:05Z

Lakebase通过冗余设计确保客户数据库的高可用性，实现自动故障转移和恢复。采用预热技术减少维护期间的性能下降，新架构结合无状态计算节点和共享存储，优化了预热过程，使数据库更新和安全补丁几乎无感知。

Lakebase零停机时间补丁管理第1部分：预热

Databricks · 2026-03-27T10:27:20Z

Eden是一款无停机、无需应用更改的Redis迁移工具，通过代理层持续处理流量，确保数据同步。测试表明，Eden在AWS到Redis Cloud的迁移中表现优异，完成时间约7分钟，且无应用中断，使Redis迁移更简单、安全。

使用Eden实现从AWS到Redis Cloud的零停机时间Redis迁移

Redis Blog · 2026-02-19T00:00:00Z

企业在依赖AWS Direct Connect的混合云环境中，需要构建高弹性网络架构，以应对维护事件。文章强调冗余与高可用性的重要性，确保业务连续性。建议启用BFD以缩短故障检测时间，并定期测试冗余链路，以验证网络弹性。

为 Direct Connect 维护事件构建弹性，最大限度减少停机时间

亚马逊AWS官方博客 · 2025-12-24T09:59:20Z

pgEdge 提供零停机节点添加功能，支持 PostgreSQL 的无中断维护，包括版本升级和硬件更换，确保应用持续在线。该功能适用于单主和全球分布部署，简化数据库管理，支持高可用性组件，完全开源，避免供应商锁定。Spock 扩展实现多主复制，提升集群弹性和可扩展性。

Antony Pegg：使用 pgEdge 实现零停机 PostgreSQL 维护

Planet PostgreSQL · 2025-12-12T06:02:57Z

本文介绍了如何在Valkey/Redis部署中无停机时间地轮换SSL/TLS证书。首先备份当前证书，然后用新证书替换旧证书，最后通过CONFIG SET命令重新加载配置。确保所有节点执行此操作，以保持服务可用性，客户端需信任新证书以维持连接。

在Valkey/Redis中无停机时间地轮换SSL/TLS证书

Percona Database Performance Blog · 2025-12-10T13:49:42Z

transformWithStateInPandas API 使状态流处理中的模式演变变得无缝，确保历史状态可用且有价值，支持业务需求的持续变化，避免数据丢失和停机。

从事件到洞察：在transformWithState中进行复杂状态处理与模式演变

Databricks · 2025-12-01T17:00:44Z

在2025年QCon旧金山会议上，Stripe工程师Jimmy Morzaria介绍了其零停机数据迁移平台，支持每秒500万查询，可靠性达到99.9995%。该平台通过六个阶段实现数据迁移，确保数据一致性和最小性能影响，支持从小数据集到数十TB的分片。迁移过程包括注册、数据导入、异步复制和流量切换，确保金融数据的安全性和完整性。Stripe选择内部构建该平台以满足安全和性能需求。