Salesforce AI 推出 CRMArena-Pro：首个面向 LLM 代理的多轮企业级基准测试

由 LLM 驱动的 AI 代理在处理复杂业务任务方面展现出巨大潜力，尤其是在客户关系管理 (CRM) 等领域。然而，由于缺乏公开可用的真实业务数据，评估其实际效果颇具挑战性。现有的...

由 LLM 驱动的 AI 代理在复杂业务任务中展现潜力，但评估存在挑战。现有基准测试主要集中于简单场景，缺乏对敏感信息的管理能力。Salesforce AI Research 推出的 CRMArena-Pro 基准测试真实评估 LLM 代理在客户服务和销售等领域的表现，包含多轮对话和保密意识测试。研究表明，顶级模型在单轮任务中的准确率约为 58%，而多轮对话降至 35%。

AI 代理 LLM ai salesforce 基准测试多轮对话客户服务