LangChain Blog ·

在生产环境中，你无法预知你的代理会做什么

💡 原文英文，约2800词，阅读约需11分钟。

📝

内容提要

传统软件监控与代理不同，代理能够处理自然语言输入，具备无限输入空间和非确定性行为。监控代理需关注用户交互的完整性、多轮上下文及决策过程。有效的监控工具应支持自动化评估与人类审查，以应对生产环境中的复杂性与规模挑战。

🎯

关键要点

传统软件监控与代理的不同在于，代理处理自然语言输入，具备无限输入空间和非确定性行为。
监控代理需要关注用户交互的完整性、多轮上下文及决策过程。
有效的监控工具应支持自动化评估与人类审查，以应对生产环境中的复杂性与规模挑战。
代理的输入空间是无限的，用户可以用多种方式表达相同的意图。
大型语言模型（LLMs）对输入的微小变化敏感，表现出非确定性行为。
传统应用性能监控（APM）工具关注延迟、流量、错误等指标，而代理可观察性需要监控输入和输出本身。
监控自然语言交互需要捕捉完整的提示-响应对、多轮上下文和代理的中间步骤。
人类判断在大规模自然语言交互中至关重要，但手动审查在生产环境中难以扩展。
注释队列和大型语言模型（LLMs）可以有效地帮助人类判断的扩展。
有效的生产可观察性需要特定的能力，传统监控工具无法满足这些需求。
Insights Agent可以自动发现用户行为模式和错误模式，帮助理解代理的使用情况。
在线评估可以持续监控质量，跟踪代理的响应是否有帮助和相关性。
生产可观察性需要关注业务关键指标，而不仅仅是技术指标。
传统监控工具在处理自然语言数据、与开发循环的连接和跨职能团队的需求方面存在局限性。
评估者的准确性和可靠性、规模下的成本、隐私和合规性是当前面临的挑战。

🔎

延伸解读

代理监控的复杂性

与传统软件监控不同，代理的输入空间是无限的，用户可以用多种方式表达相同的意图。这种多样性使得监控代理的用户交互变得复杂，必须关注完整的提示-响应对和多轮上下文，以确保代理能够正确理解用户的需求。

人类判断的必要性

在大规模自然语言交互中，人类判断至关重要。然而，手动审查在生产环境中难以扩展。使用注释队列和大型语言模型（LLMs）可以帮助提高审查效率，但仍需关注评估者的准确性和可靠性，以确保监控质量。

传统监控工具的局限性

传统的应用性能监控（APM）工具主要关注延迟、流量和错误等指标，而代理的可观察性需要监控输入和输出本身。这意味着，开发团队需要采用专门的监控平台，以满足代理特有的需求和挑战。

❓

延伸问答

代理与传统软件监控有什么不同？

代理处理自然语言输入，具备无限输入空间和非确定性行为，而传统软件监控则关注有限的、结构化的用户交互。

如何有效监控代理的用户交互？

有效监控代理需要捕捉完整的提示-响应对、多轮上下文和代理的中间步骤，而不仅仅是系统指标。

在生产环境中，人工审查代理交互的挑战是什么？

人工审查在生产环境中难以扩展，通常需要大量时间来评估成千上万的交互。

如何利用大型语言模型（LLMs）来扩展人类判断？

可以使用LLMs进行在线评估，自动检查质量指标和安全性，从而在大规模交互中提供评估。

生产可观察性需要关注哪些关键指标？

生产可观察性需要关注业务关键指标，如用户满意度和代理的实际使用情况，而不仅仅是技术指标。

传统监控工具在代理监控中存在哪些局限性？

传统监控工具在处理自然语言数据、与开发循环的连接和跨职能团队的需求方面存在局限性。

🏷️