InfoQ ·

报告发现大型语言模型尚未准备好取代网站可靠性工程师在事件管理中的角色

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

一项ClickHouse的研究表明，大型语言模型（LLMs）无法完全取代网站可靠性工程师（SREs），尤其在查找事件根本原因方面。尽管LLMs在辅助工具中表现良好，但仍需人类指导。研究发现，LLMs在撰写根本原因分析报告时表现出色，建议与人类专家结合使用，以提高效率和准确性。

🎯

关键要点

ClickHouse的研究表明，大型语言模型（LLMs）无法完全取代网站可靠性工程师（SREs），尤其在查找事件根本原因方面。
研究测试了五种领先的模型，结果显示LLMs在辅助工具中表现良好，但无法完全替代人类工程师。
研究发现，LLMs在撰写根本原因分析报告时表现出色，建议与人类专家结合使用以提高效率和准确性。
不同模型在处理不同场景时表现不一，部分模型在简单问题上表现良好，但在复杂问题上需要人类干预。
研究指出，LLMs在处理缓存相关问题时倾向于锁定单一推理路径，未能探索其他可能性。
成本和效率在不同模型和场景之间差异显著，调查时间和成本变化较大。
尽管GPT-5是最新模型，但在测试中表现与现有模型相似，使用的token更少。
研究团队使用的测试方法存在局限性，数据集相对简单，未进行内容丰富的提示调整。
研究建议将人类专业知识与AI辅助结合，而非完全自动化，LLMs可用于总结日志、草拟状态更新和调查计划。
Varun Biswas在LinkedIn上指出，AI驱动的工具可以接管监控、分析和修复任务，但人类仍需参与战略决策和监督。
另一项研究评估了GPT-4o、Gemini-1.5和Mistral-small在基础设施事件根本原因分析中的能力，发现人类SRE的表现显著优于LLMs。
ClickHouse的研究结论是，LLMs不能完全取代SRE，但可以在快速可观察性堆栈的配合下缩短事件处理时间和改善文档。

🔎

延伸解读

人类与AI的协作

研究表明，尽管大型语言模型（LLMs）在某些任务上表现出色，但仍需人类工程师的指导。结合人类专业知识与AI辅助工具，可以提高事件管理的效率和准确性。

模型性能的差异

不同的LLMs在处理事件根本原因分析时表现不一。某些模型在简单问题上表现良好，但在复杂问题上则需要人类干预。了解各模型的优缺点有助于选择合适的工具。

成本与效率的考量

研究显示，不同模型在调查时间和成本上差异显著。使用LLMs时，需考虑其成本效益，尤其是在复杂场景下，可能需要更多的时间和资源来获得准确结果。

❓

延伸问答

大型语言模型能否完全取代网站可靠性工程师？

大型语言模型无法完全取代网站可靠性工程师，尤其是在查找事件根本原因方面。

研究中测试了哪些大型语言模型？

研究测试了Claude Sonnet 4、OpenAI GPT-o3、OpenAI GPT-4.1和Gemini 2.5 Pro。

大型语言模型在撰写根本原因分析报告方面表现如何？

大型语言模型在撰写根本原因分析报告时表现出色，能够生成强有力的初步草稿。

研究发现LLMs在处理复杂问题时的表现如何？

在处理复杂问题时，LLMs往往需要人类的干预，无法独立找到根本原因。

研究建议如何使用大型语言模型与人类专家结合？

研究建议将LLMs用于总结日志、草拟状态更新和调查计划，同时保持人类工程师的控制。

研究中提到的成本和效率差异有多大？

不同模型和场景之间的成本和效率差异显著，调查时间从一分钟到45分钟不等，成本从$0.10到近$6。

🏷️