The New Stack ·

大型语言模型打破了SRE运行手册。接下来该怎么办？

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

可靠性工程师在现代软件中至关重要。随着AI时代的到来，输出变得不确定，传统工具和方法面临挑战。SREs需适应新的监控和评估方式，关注业务指标而非单一信号。尽管许多团队感到滞后，实际上大家都在探索中，MLOps仍有许多未解问题。

🎯

🔎

随着大型语言模型（LLMs）的普及，可靠性工程师面临着前所未有的挑战。传统的监控和评估工具在处理非确定性输出时显得力不从心，SREs需要重新审视其工作方法，关注业务结果而非单一信号，以确保系统的可靠性。

在AI应用中，监控策略必须向业务指标倾斜。SREs需要定义与业务结果相关的服务级指标（SLIs）和服务级目标（SLOs），以便及时捕捉质量变化。这种转变不仅是对技术的适应，也是对业务需求的响应。

尽管许多公司在MLOps方面仍面临挑战，但这也是一个探索的机会。当前没有公司完全掌握如何在大规模下操作非确定性系统，未来的成功依赖于持续的学习和适应能力。

❓

可靠性工程师面临的挑战包括AI输出的不确定性、数据统计特性的变化以及传统监控工具的失效。

评估AI生成内容的质量应关注业务指标，如点击率（CTR）等，而非单一信号。

SREs需要快速适应新的监控方式，关注业务结果，并定义结果级别的SLI和SLO。

MLOps面临的问题包括缺乏高质量的可观察性、监控和可观察性挑战，以及如何在大规模下操作非确定性系统。

传统监控工具在AI时代不再有效，因为AI输出是非确定性的，无法通过传统的状态码等指标进行有效评估。

实现AI系统的可靠性需要结合业务结果与经典指标，建立有效的监控和评估机制。

🏷️