小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从分钟到秒:Uber通过共识架构提升MySQL集群的可用性

Uber重新设计了MySQL基础设施,采用MySQL组复制(MGR)替代外部故障转移,故障恢复时间缩短至秒。新架构通过共识复制确保数据一致性,支持自动节点管理和负载均衡,提升系统的可靠性和可用性。

从分钟到秒:Uber通过共识架构提升MySQL集群的可用性

InfoQ
InfoQ · 2026-03-11T14:15:00Z
持久执行:在不可靠的世界中构建可靠软件

软件可靠性是开发者面临的持续挑战,因IT系统依赖不可靠组件。传统上,工程师通过容错硬件和防御性编码来提升可靠性。Durable Execution平台如Temporal确保应用在不利条件下正常运行,管理状态和处理重试,简化开发过程,允许开发者在故障时恢复执行,从而降低复杂性,提高系统可靠性。

持久执行:在不可靠的世界中构建可靠软件

The New Stack
The New Stack · 2026-02-02T23:23:19Z
DevOps仍在等待它的光标时刻

AI已改变代码编写方式,但基础设施运维仍需手动操作。DevOps面临实时流量错误、环境独特性和合规要求等挑战,现有工具无法全面应对。未来,AI将通过专门代理和统一协调层提升DevOps效率,缩短故障恢复时间,帮助工程师更高效工作。

DevOps仍在等待它的光标时刻

The New Stack
The New Stack · 2025-12-05T15:00:18Z
QCon旧金山:数据库驱动的工作流编排挑战传统架构

在2025年QCon旧金山大会上,Jeremy Edberg和Qian Li提出了一种新颖的工作流编排架构,利用PostgreSQL作为编排层,简化工作流管理并支持标准SQL查询。DBOS Transact库可在中断时从最后检查点恢复,解决了分布式系统中的可见性和故障恢复问题。

QCon旧金山:数据库驱动的工作流编排挑战传统架构

InfoQ
InfoQ · 2025-11-18T15:10:00Z

Monit 是一款轻量级开源监控工具,自动化监控服务、故障恢复和告警通知,减轻运维负担。它支持监控进程、资源和文件,并适用于各种 Linux 发行版。用户可通过简单配置快速搭建监控体系,提高系统稳定性。

Monit 在 Linux 中的全面应用指南

极客技术博客’s Blog
极客技术博客’s Blog · 2025-11-17T10:00:11Z
Umair Shahid:PostgreSQL数据库SLA:为何隐藏问题常常破坏客户承诺

SLA的核心在于后台操作,PostgreSQL配置不当可能导致慢查询和备份失败,影响客户体验。通过优化查询和备份机制,以及定期测试故障恢复,可以有效降低延迟和风险,增强SLA的可靠性。

Umair Shahid:PostgreSQL数据库SLA:为何隐藏问题常常破坏客户承诺

Planet PostgreSQL
Planet PostgreSQL · 2025-08-20T12:18:38Z
Spring Batch 6.0.0-M2 现已发布

Spring Batch 6.0.0-M2发布,升级了依赖,改进了块处理模型和故障恢复功能,提供更稳定的块处理,支持重试和跳过策略,实现一致的作业执行恢复。

Spring Batch 6.0.0-M2 现已发布

Spring
Spring · 2025-08-20T00:00:00Z
Heroku 6月10日服务中断总结

2025年6月10日,Heroku因系统更新发生约12小时的服务中断,未造成数据丢失,但影响了客户信任。团队已恢复服务,并承诺改进基础设施和故障恢复流程,以防止类似事件重演。

Heroku 6月10日服务中断总结

Heroku
Heroku · 2025-06-15T20:07:36Z
🧠 Kubernetes 完全初学者指南:架构与核心组件

Kubernetes(K8s)是谷歌开发的开源系统,用于部署、扩展和管理容器化应用。它自动处理容器的调度、扩展和故障恢复,使开发者专注于应用而非基础设施。K8s由主节点和工作节点组成,主节点负责决策,工作节点运行应用。核心组件包括Pod、Service和Deployment等。尽管K8s看似复杂,但理解基本结构后会变得简单。

🧠 Kubernetes 完全初学者指南:架构与核心组件

DEV Community
DEV Community · 2025-05-12T00:24:27Z
数据工程概念介绍 |12| 调度与工作流编排

数据管道日益复杂,手动管理已不再可行。工作流编排确保任务按顺序和时效执行,并处理依赖关系和错误。常用工具包括Apache Airflow、Prefect和Dagster,支持任务依赖、并行处理和故障恢复。设计时需关注可观察性、重试机制和模块化,以提升维护性和可扩展性。

数据工程概念介绍 |12| 调度与工作流编排

DEV Community
DEV Community · 2025-05-02T19:41:49Z
火山如何应对大型语言模型训练和推理挑战

随着大型语言模型的普及,AI训练和推理需求激增,分布式训练变得至关重要。网络通信、资源分配和故障恢复等问题成为性能瓶颈。通过拓扑感知调度和细粒度故障恢复,可以优化资源管理,提高效率,支持大规模AI工作负载。

火山如何应对大型语言模型训练和推理挑战

The New Stack
The New Stack · 2025-04-01T16:30:01Z

本研究提出了一种统一的故障恢复框架,结合视觉语言模型、反应规划器和行为树,以解决机器人在动态环境中的执行失败问题。通过预执行验证和实时故障处理,提升了任务的成功率和适应性。

Unified Framework for Real-Time Fault Handling in Robots Based on Visual Language Models, Reactive Planners, and Behavior Trees

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
更好的CI的AI DevOps代理

AI代理简化CI监控,自动处理重复任务,提前识别问题并提供解决方案,实时监控管道,进行根本原因分析,减少故障恢复时间,优化成本,提高CI流程效率,使团队专注于软件开发。

更好的CI的AI DevOps代理

DEV Community
DEV Community · 2025-02-02T08:57:54Z
以低于25美元搭建生产级MySQL高可用集群——你准备好了吗?

本文介绍如何以低于25美元搭建高可用的MySQL集群,适合小型项目和预算有限的开发者。通过开源工具,用户可实现多个MySQL节点、负载均衡和故障恢复。作者计划通过视频教程分享具体步骤,并期待社区反馈以优化内容。

以低于25美元搭建生产级MySQL高可用集群——你准备好了吗?

DEV Community
DEV Community · 2025-01-25T18:06:02Z
解锁AWS控制台:使用亚马逊Q开发者诊断错误

亚马逊Q开发者是一个生成式AI助手,旨在简化AWS管理控制台中的错误诊断。它通过自动分析错误,提供自然语言解释和解决方案,帮助开发者和IT团队快速解决问题,提高运营效率,并减少故障恢复时间。

解锁AWS控制台:使用亚马逊Q开发者诊断错误

DEV Community
DEV Community · 2025-01-16T13:15:35Z
Amazon RDS Multi-AZ 架构中的故障切换

数据库故障不可避免,AWS RDS Multi-AZ 部署可自动切换到备用数据库。了解其内部机制有助于构建更可靠的应用程序。RDS 通过 EC2 实例和 EBS 存储实现高可用性和故障恢复。Multi-AZ 部署分为传统和集群两种方式,数据复制和故障转移过程复杂,需合理设计应用以应对故障。

Amazon RDS Multi-AZ 架构中的故障切换

DEV Community
DEV Community · 2024-12-18T23:23:44Z
AWS全球基础设施概述 第一部分

AWS全球基础设施由多个区域和可用区组成,确保数据传输快速和高可用性。选择区域时需考虑延迟、价格、服务可用性和合规性。可用区提供冗余,增强故障恢复能力。

AWS全球基础设施概述 第一部分

DEV Community
DEV Community · 2024-11-30T23:31:23Z

本研究提出了一种框架,通过应用传统的可靠性和韧性工程原则,提高AI系统在各行业中的可靠性和安全性,旨在有效管理系统性能并快速恢复故障。

Reliability, Resilience, and Human Factors Engineering for Trustworthy AI Systems

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-13T00:00:00Z
使用 pg_waldump 和 pg_walinspect 查看 WAL 文件的内容

本文介绍了分析WAL文件的概念,如pg_waldump和pg_walinspect。WAL是一种确保数据持久性的标准方法,记录数据库的更改并在将实际数据刷新到数据文件或rel文件之前,帮助在故障情况下将数据库恢复到一致状态。使用WAL的主要好处是它符合ACID,确保持久性,并显著减少写入次数,支持在线备份和时间点恢复。pg_waldump是一个实用程序,可以从WAL文件段中提取人类可读的信息。pg_walinspect是一个用于详细调试WAL的SQL函数模块。通过使用pg_waldump和pg_walinspect,可以分析WAL文件中的操作,如CREATE、RUNNING_XACTS、INSERT_LEAF、COMMIT、DELETE和HOT_UPDATE。

使用 pg_waldump 和 pg_walinspect 查看 WAL 文件的内容

Percona Database Performance Blog
Percona Database Performance Blog · 2024-07-02T15:13:37Z
面试为什么老爱问 Redis?

Redis在Java面试中常被提及,因其高效性和性能优化能力。面试官通过考察候选人对Redis的配置、故障恢复及实际操作经验,评估其解决问题的能力。同时,讨论Redis的新特性也能反映候选人对技术发展的关注。

面试为什么老爱问 Redis?

江南一点雨
江南一点雨 · 2024-06-16T12:27:34Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码