小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
停电无忧:验证瞬时断电准备情况

Meta推出了“瞬时断电风暴”测试方案,以增强数据中心在突发电力损失情况下的容错能力,确保服务可用性。测试中,团队解决了依赖性和信号干扰问题,提升了系统的可靠性与快速恢复能力。

停电无忧:验证瞬时断电准备情况

Engineering at Meta
Engineering at Meta · 2026-06-03T17:00:44Z
Temporal的崩溃防护工作流引擎迎来3000名付费客户

Temporal是一家位于西雅图的软件公司,专注于保护IT系统,尤其是在处理大型AI工作负载时。其开源Durable Execution框架使代码具备容错能力,能够在崩溃或网络故障后恢复运行。Temporal的客户包括Nvidia和Netflix,用户数量已超过3000名。该平台简化了复杂工作流程,确保业务过程顺利完成,适应现代应用需求。

Temporal的崩溃防护工作流引擎迎来3000名付费客户

The New Stack
The New Stack · 2026-05-13T13:48:49Z
OpenClaw Agent与Skill架构详解

OpenClaw是一个多渠道AI代理平台,解决了现有框架在消息处理、长时运行和知识扩展方面的不足。它支持多种通信渠道,具备灵活的知识扩展机制,并通过主子代理架构实现并行任务处理,具备多层容错能力,确保在故障情况下自动恢复,提高了AI代理的可靠性和效率。

OpenClaw Agent与Skill架构详解

京东科技开发者
京东科技开发者 · 2026-04-02T10:10:03Z
数据库复制指南:关键概念与策略

现代应用依赖数据,用户期望数据快速、实时且可访问。数据库复制通过在多台机器上保存相同数据,提高容错能力、扩展读取和减少延迟。尽管复制能确保系统在部分故障时继续运行,但也带来了如一致性和性能等复杂问题。本文探讨了复制延迟及当前分布式数据库的主要复制策略。

数据库复制指南:关键概念与策略

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-07-03T15:31:05Z

系统稳定性问题通常由多种因素引起,理解因果关系至关重要。以服务雪崩为例,A服务的重试机制放大了B服务的小问题,导致系统崩溃。为避免此类问题,应提高服务容错能力、实施智能重试策略,并强化监控和流量控制。因果推断有助于开发者分析和解决技术问题,从而提升系统的稳定性和可维护性。

当系统闹脾气:用「因果推断」哄稳技术的心

京东科技开发者
京东科技开发者 · 2025-04-25T02:50:41Z
理解软件开发中的爆炸半径(系统设计)🚀🔥💡

在软件系统设计中,'爆炸半径'指组件故障对其他部分的影响。通过限制爆炸半径,可以提升系统的可靠性和容错能力,缩短恢复时间,减少业务影响。设计时需分析关键依赖、故障传播路径和服务边界,并采用微服务隔离、优雅降级和限流等策略,以确保系统在故障时仍能正常运行。

理解软件开发中的爆炸半径(系统设计)🚀🔥💡

DEV Community
DEV Community · 2025-03-22T15:30:18Z
KubeFleet:多集群Kubernetes应用管理的未来

Kubernetes因其高可用性和容错能力,成为现代复杂应用的理想选择。多集群管理提升了性能和可扩展性,但增加了操作复杂性。KubeFleet作为开源项目,简化了多集群应用管理,提供统一控制面板和调度能力,支持连续部署策略,促进高效可靠的应用部署。

KubeFleet:多集群Kubernetes应用管理的未来

The New Stack
The New Stack · 2025-03-20T16:00:35Z
解锁量子错误纠正:手性猫量子比特的力量

量子计算中的错误纠正是一个重大挑战。手性猫量子比特通过拓扑效应有效减轻错误,增强容错能力,适用于加密和药物发现等领域。研究这些量子比特有助于开发更强大的量子信息技术。

解锁量子错误纠正:手性猫量子比特的力量

DEV Community
DEV Community · 2025-03-18T00:12:48Z
分布式系统的阴暗面:延迟与分区容忍性

分布式系统由独立计算资源组成,协同提供统一服务。它们通过多个节点分担负载,提高可扩展性和容错能力,但协调多个节点会带来数据一致性和系统同步的复杂性。关键因素包括延迟和分区容忍性,这些都会影响用户体验和系统可用性。

分布式系统的阴暗面:延迟与分区容忍性

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-03-06T16:31:16Z
Kubernetes多云架构终极指南

Kubernetes多云架构提供高可用性、成本优化和供应商灵活性,优点包括避免供应商锁定、提高容错能力和满足合规要求。面临的挑战有网络复杂性、安全性和集群管理,解决方案包括服务网格和集中控制平面。最佳实践为GitOps自动化部署和监控工具。

Kubernetes多云架构终极指南

DEV Community
DEV Community · 2025-02-15T18:04:11Z
当第三方API失控时

构建稳健的API集成策略应包括设置超时、自动重试、硬速率限制、解耦接口和异步队列。这些措施能提升应用的可用性和容错能力,确保在外部服务不稳定时仍能正常运行。

当第三方API失控时

DEV Community
DEV Community · 2025-02-03T17:28:00Z
所有 BFT 共识的区块链都是中心化的

BFT 共识的区块链因中心化组织决定网络版本而不易分叉,若验证者超过半数,网络将停止,资产无法转移。相比之下,PoS 网络允许规则共存,具备更高的容错能力,因此从投资角度看,PoS 网络更安全。

所有 BFT 共识的区块链都是中心化的

smallyu的博客
smallyu的博客 · 2025-01-05T03:57:59Z
利用 Apache Celeborn 减少 AWS EMR 集群中 Spot 实例回收导致的重算成本

AWS EMR 支持使用 Spot 实例运行大数据任务,但实例中断可能导致 Spark 任务重算。通过引入 Apache Celeborn 的远程 Shuffle 服务,将 Shuffle 数据存储在远程,提升容错能力,减少重算开销,最大化 Spot 实例的成本优势。测试显示,使用 Celeborn 后,即使 Spot 实例中断,任务也能完成,降低了运行成本。

利用 Apache Celeborn 减少 AWS EMR 集群中 Spot 实例回收导致的重算成本

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-10-16T06:45:27Z

Node.js 集群是一种技术,可以通过生成多个 Node.js 应用程序实例来利用所有 CPU 核心。每个工作进程可以独立处理传入的请求,从而提高应用程序性能并提供容错能力。集群对于高流量应用程序、CPU 密集型任务和多核处理器非常有用。Node.js 提供了一个内置的集群模块,便于实现。

为更佳性能集群化您的 Node.js 应用程序

DEV Community
DEV Community · 2024-09-19T04:53:37Z

本文讨论了使用Apache Spark时常见的十个错误及其解决方案,包括错误添加列、忽视数据序列化格式、未使用并行文件列表和忽视数据本地性等。强调了优化Spark性能的重要性,如调整shuffle分区数量、广播连接阈值和内存设置。建议使用checkpoint()方法以提高容错能力,确保作业的可靠性和性能。

使用Apache Spark时避免这十大常见错误

DEV Community
DEV Community · 2024-08-28T09:05:06Z
参数脆弱性因子(PVF):一种用于理解人工智能系统在模型参数中对静默数据损坏(SDCs)脆弱性的创新指标

本文介绍了一种新指标——参数脆弱性因子(PVF),用于衡量人工智能系统对静默数据损坏(SDCs)的脆弱性。PVF适用于不同的AI模型和硬件故障,能够帮助识别和减轻SDCs的影响。研究表明,SDCs可能导致模型输出错误,影响AI服务的可靠性。通过PVF,设计者可以优化硬件分配,提高系统的容错能力。

参数脆弱性因子(PVF):一种用于理解人工智能系统在模型参数中对静默数据损坏(SDCs)脆弱性的创新指标

Engineering at Meta
Engineering at Meta · 2024-06-19T16:00:46Z

本文研究了深度神经网络(DNN)的加速计算和容错能力,提出了一种名为APPRAISER的弹性评估方法,通过近似计算提高安全性和效率。研究表明,量化对模型准确性和硬件性能影响显著,所提出的框架实现了高效的故障模拟和可靠性分析,显著提升了DNN训练的速度和功率效率。

对 Arm Ethos-U55 嵌入式机器学习加速器软错误容忍性的表征

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-14T00:00:00Z

CAN总线是一种串行通信总线,具有出色的容错能力和强大的检错和处理机制。CAN通信协议分为标准CAN和扩展CAN,标准CAN具有11位标识符,扩展CAN具有29位标识符。CAN总线使用差分信号传输,需要一对信号线,推荐使用双绞线。CAN总线的节点数量由收发器可以驱动的最小负载阻抗决定。CAN总线需要考虑共模电压范围、总线短路保护和热关断保护、电流隔离等因素。CAN接口电路与RS485接口电路有相似之处,但在信号延迟、电容敏感等方面有所不同。

大神写的CAN总线入门总结,收藏!

良许Linux教程网
良许Linux教程网 · 2024-02-19T15:07:39Z

CAN总线是一种串行通信总线,用于汽车工业和工业场合。CAN通信协议定义了信息传递方式和分层项。CAN总线具有高容错能力和抗干扰性。节点数量受驱动能力和终端匹配电阻限制。终端匹配电阻和电缆截面积保证通讯质量和距离。共模电压范围、信号延迟、节点容抗和电流隔离是CAN总线需要考虑的因素。

高手写的CAN总线入门总结

良许Linux教程网
良许Linux教程网 · 2024-01-14T10:57:51Z

本文介绍了同步通信模式的局限性和采用异步事件驱动架构的优点,包括松散耦合、提高响应能力、增强容错能力和可扩展性。通过事件驱动的微服务,可以构建更具可维护性、弹性和高效的分布式系统,适应现代软件开发的需求。

为什么选择事件驱动的微服务架构?

Lenix
Lenix · 2023-09-23T11:05:16Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码