The New Stack ·

人工智能可靠性工程：欢迎来到SRE的第三个时代

💡 原文英文，约2200词，阅读约需8分钟。

📝

内容提要

随着AI推理工作负载的增加，AI可靠性工程（AIRe）应运而生。推理不仅是模型执行，还涉及实时和批处理操作。AI模型需具备高可用性和低延迟，传统SRE原则需应对模型衰退和准确性SLA等新挑战。AI网关成为现代SRE的重要工具，以确保智能系统的可靠性。

🎯

关键要点

随着AI推理工作负载的增加，AI可靠性工程（AIRe）应运而生。
推理不仅是模型执行，还涉及实时和批处理操作。
AI模型需具备高可用性和低延迟，传统SRE原则需应对模型衰退和准确性SLA等新挑战。
AI网关成为现代SRE的重要工具，以确保智能系统的可靠性。
推理分为实时推理和批处理推理两种模式，实时推理要求低延迟。
推理需要精确的工程，实时应用不仅需要快速计算，还需要高可用的基础设施。
推理可以在边缘设备到超大规模云中运行，部署决策常常取决于成本、控制和延迟。
团队使用量化、模型蒸馏和神经架构搜索等技术来优化推理性能。
传统的监控工具无法满足推理工作负载的需求，需要跟踪预测延迟、令牌吞吐量等指标。
推理流量可能会因使用模式而激增，需要积极的自动扩展和智能负载均衡。
AI推理带来了新的攻击面，工程师必须通过身份验证、速率限制等手段保护模型端点。
AI模型的非确定性特征改变了我们对可靠性的定义。
需要定义和测量基于准确性、公平性和模型漂移的性能指标。
标准工具无法跟踪AI特有的问题，需要AI特定的可观察性。
模型衰退是一种渐进的、通常不可见的性能下降，需要新的思维方式和工具来处理。
AI网关是现代SRE的重要工具，提供路由、负载均衡和安全策略等功能。
SRE的角色正在演变，需要对整个系统有更深入的理解。
AI可靠性工程不仅是SRE的延伸，而是对智能系统可靠性的根本重塑。

🔎

延伸解读

AI推理的双重模式

AI推理分为实时推理和批处理推理两种模式。实时推理要求低延迟，适用于聊天机器人和自动驾驶等应用，而批处理推理则在预定时间处理大量数据。理解这两种模式的差异，有助于在设计系统时选择合适的架构和资源配置。

监控与可观察性的新挑战

传统监控工具无法满足AI推理工作负载的需求，必须关注预测延迟、令牌吞吐量等新指标。为了确保AI系统的可靠性，团队需要采用AI特定的可观察性工具，如OpenTelemetry和Prometheus，以便及时发现和解决潜在问题。

模型衰退的隐患

AI模型的非确定性特征使得模型衰退成为一个隐蔽的风险。与传统软件不同，AI模型可能在没有明显错误的情况下逐渐失去准确性。工程师需要建立新的思维方式和工具，以便及时识别和应对这种“静默衰退”的现象。

❓

延伸问答

什么是人工智能可靠性工程（AIRe）？

人工智能可靠性工程（AIRe）是应对AI推理工作负载增加而产生的新学科，旨在确保AI模型的高可用性和低延迟。

推理在AI中有哪些不同的模式？

推理主要有实时推理和批处理推理两种模式，实时推理要求低延迟，而批处理推理则在预定时间处理大数据集。

AI模型的可靠性如何定义？

AI模型的可靠性不仅包括正常运行时间，还需考虑准确性、公平性和模型漂移等指标。

AI网关在现代SRE中有什么作用？

AI网关是现代SRE的重要工具，提供路由、负载均衡和安全策略等功能，以确保智能系统的可靠性。

如何优化AI推理性能？

团队可以通过量化、模型蒸馏和神经架构搜索等技术来优化AI推理性能，目标是实现更小、更快的推理引擎。

AI推理带来了哪些新的安全挑战？

AI推理引入了新的攻击面，工程师需要通过身份验证、速率限制和加密等手段来保护模型端点。

🏷️