Salesforce AI 推出 CRMArena-Pro:首个面向 LLM 代理的多轮企业级基准测试

由 LLM 驱动的 AI 代理在处理复杂业务任务方面展现出巨大潜力,尤其是在客户关系管理 (CRM) 等领域。然而,由于缺乏公开可用的真实业务数据,评估其实际效果颇具挑战性。现有的...

由 LLM 驱动的 AI 代理在复杂业务任务中展现潜力,但评估存在挑战。现有基准测试主要集中于简单场景,缺乏对敏感信息的管理能力。Salesforce AI Research 推出的 CRMArena-Pro 基准测试真实评估 LLM 代理在客户服务和销售等领域的表现,包含多轮对话和保密意识测试。研究表明,顶级模型在单轮任务中的准确率约为 58%,而多轮对话降至 35%。

Salesforce AI 推出 CRMArena-Pro:首个面向 LLM 代理的多轮企业级基准测试
原文中文,约1700字,阅读约需4分钟。发表于:
阅读原文