The New Stack ·

人工智能可靠性工程：欢迎来到SRE的第三个时代

💡 原文英文，约2200词，阅读约需8分钟。

📝

内容提要

随着AI推理工作负载的增加，AI可靠性工程（AIRe）应运而生。推理不仅是模型执行，还涉及实时和批处理操作。AI模型需具备高可用性和低延迟，传统SRE原则需应对模型衰退和准确性SLA等新挑战。AI网关成为现代SRE的重要工具，以确保智能系统的可靠性。

🎯

关键要点

随着AI推理工作负载的增加，AI可靠性工程（AIRe）应运而生。
推理不仅是模型执行，还涉及实时和批处理操作。
AI模型需具备高可用性和低延迟，传统SRE原则需应对模型衰退和准确性SLA等新挑战。
AI网关成为现代SRE的重要工具，以确保智能系统的可靠性。
推理分为实时推理和批处理推理两种模式，实时推理要求低延迟。
推理需要精确的工程，实时应用不仅需要快速计算，还需要高可用的基础设施。
推理可以在边缘设备到超大规模云中运行，部署决策常常取决于成本、控制和延迟。
团队使用量化、模型蒸馏和神经架构搜索等技术来优化推理性能。
传统的监控工具无法满足推理工作负载的需求，需要跟踪预测延迟、令牌吞吐量等指标。
推理流量可能会因使用模式而激增，需要积极的自动扩展和智能负载均衡。
AI推理带来了新的攻击面，工程师必须通过身份验证、速率限制等手段保护模型端点。
AI模型的非确定性特征改变了我们对可靠性的定义。
需要定义和测量基于准确性、公平性和模型漂移的性能指标。
标准工具无法跟踪AI特有的问题，需要AI特定的可观察性。
模型衰退是一种渐进的、通常不可见的性能下降，需要新的思维方式和工具来处理。
AI网关是现代SRE的重要工具，提供路由、负载均衡和安全策略等功能。
SRE的角色正在演变，需要对整个系统有更深入的理解。
AI可靠性工程不仅是SRE的延伸，而是对智能系统可靠性的根本重塑。

🏷️

继续阅读

在人工智能时代重新构建医疗科技
乔恩·韦特斯顿是8th Light的设计负责人，拥有超过25年的软件解决方案设计经验，专注于医疗、金融和消费品领域，擅长数字化转型指导。
肖恩·托马斯：使用Patroni构建高可用Postgres集群——第一部分：etcd
本文介绍了如何构建Patroni集群，重点在于etcd的安装与配置。首先需创建三台Debian虚拟机并安装etcd，配置完成后验证集群状态，确保所有节点正...
人工智能是否正在消灭开源软件？
人工智能并未消灭开源软件，但正在改变其基本假设。AI带来了更多噪音和问题，尽管开发者能快速生成代码，但维护能力不足。许多项目已更新治理，有的禁止使用AI。...
AI 时代的人类处境：科技、宗教与生命意义的重构
在AI时代，科技与宗教的关系需重新审视。科技改变人与世界的互动，但无法消解人类对意义和死亡的思考。宗教应超越消费，关注真实修行。科学与宗教的关系可视为对立...
Vibe Coding 时代的极简密钥管理：我开源了一个基于 Cloudflare 的轻量级 KMS
“Vibe Coding” 提高了开发效率，但也带来了安全隐患。为保护敏感信息，作者开发了基于 Cloudflare Worker 的开源项目 meath...
央视点赞千问APP，“AI办事”让人工智能走进日常生活
央视点赞千问APP，推动AI办事进入日常生活。该APP通过语音交互满足个性化需求，受到大众，尤其是老年群体的欢迎。春节期间，1.3亿人体验AI下单，显示中...

人工智能可靠性工程：欢迎来到SRE的第三个时代

内容提要

关键要点

标签

继续阅读