土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】23：LLM 可观测性

💡 原文中文，约25100字，阅读约需60分钟。

📝

内容提要

大模型系统的可观测性与传统微服务不同，需关注请求成本、延迟和正确性等多维度指标。文章提出四层观测模型：基础设施层、调用层、质量层和业务层，并推荐使用多种工具（如Langfuse、Helicone等）进行监控。可观测性应能快速定位问题并修复，以确保用户体验。

🎯

🔎

大模型系统的可观测性与传统微服务显著不同，主要体现在请求成本、延迟和正确性等多维度指标上。传统微服务通常关注单一的延迟指标，而大模型需要拆分为TTFT、TPOT和E2E等多个指标，以全面反映用户体验。

文章提出的四层观测模型为大模型的监控提供了系统化的框架。基础设施层、调用层、质量层和业务层的分层设计，使得开发者能够更快速地定位问题并进行修复，从而提升用户体验。

在选择监控工具时，开发者应根据自身需求和数据合规性考虑。文章推荐的工具如Langfuse和Helicone等，分别适合不同的使用场景，尤其是在数据是否需要出境方面，选择合适的工具至关重要。

❓

大模型系统的可观测性需要关注请求成本、延迟和正确性等多维度指标，而传统微服务主要关注CPU秒和单一延迟。

可观测性四层模型包括基础设施层、调用层、质量层和业务层。

推荐的工具包括Langfuse、Helicone、LangSmith等。

可观测性应能在5分钟内定位问题，并在3小时内修复，以确保用户体验。

主要延迟指标包括TTFT（Time To First Token）、TPOT（Time Per Output Token）和E2E（End-to-End Latency）。

质量评估可以通过用户反馈、幻觉检测和在线评估等方式进行。

🏷️