LangChain Blog ·

更好的工具：利用评估数据进行工具优化的方案

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

通过使用评估数据（evals），我们可以迭代改进智能代理的性能。评估数据作为训练数据，指导代理学习和优化行为。强调数据质量和设计的重要性，以避免过拟合，并通过手动编写、生产追踪和外部数据集获取评估，确保代理在新输入上的泛化能力。

🎯

❓

通过使用评估数据（evals）作为训练数据，指导代理学习和优化行为，从而迭代改进智能代理的性能。

评估数据编码了我们希望代理在生产中表现出的行为，作为训练数据指导代理的学习过程。

强调数据质量和设计的重要性，使用手动编写、生产追踪和外部数据集来获取高质量的评估数据。

Better-Harness是一个通过评估数据迭代改进智能代理的系统，旨在优化代理的性能。

优化循环包括源数据、标记评估、分割数据、运行基线、优化和验证等步骤。

未来的目标是实现自动错误检测和修复，以提高智能代理的性能和可靠性。

🏷️

MCP 应用现已在 Copilot 聊天中可用
微软于3月9日宣布，智能代理通过MCP应用和OpenAI应用SDK可直接集成到Microsoft 365 Copilot聊天中，提升用户体验，支持复杂工作流程和数据交互。
信任但谨慎：大规模配置的安全性
在本期Meta科技播客中，Pascal Hartig与Meta配置团队的Ishwari和Joe讨论了安全大规模推出配置的方法，包括金丝雀发布、渐进式发布、...
通过Claude托管代理，Anthropic希望为您管理AI代理
新服务的定价结构清晰明了，用户根据模型的令牌使用量付费，并需支付每小时$0.08的活跃运行费用。空闲时间不计入运行时间，网络搜索每1,000次额外收费$10。
迁移的最佳时机是1000万行数据时，第二佳时机就是现在。
快速仪表板无需复杂设置，连续聚合提供增量更新的物化视图，结合预计算汇总和最新原始数据。FlightAware查询时间从6.4秒降至30毫秒，仪表板从第一天...
微软希望让服务网格变得无形
在2026年阿姆斯特丹的KubeCon EU上，我与微软首席软件工程师Mitch Connors交谈。他是Istio的维护者，现任Azure Kubern...
Visual Studio Code 1.115版本
Visual Studio Code 1.115版本更新了多个功能，包括终端粘贴文件、后台终端通知、Mac浏览器缩放手势支持，以及SSH远程连接、会话文件...