由 LLM 驱动的 AI 代理在复杂业务任务中展现潜力,但评估存在挑战。现有基准测试主要集中于简单场景,缺乏对敏感信息的管理能力。Salesforce AI Research 推出的 CRMArena-Pro 基准测试真实评估 LLM 代理在客户服务和销售等领域的表现,包含多轮对话和保密意识测试。研究表明,顶级模型在单轮任务中的准确率约为 58%,而多轮对话降至 35%。
本研究提出CRMArena基准,用于评估AI代理在客户关系管理系统中的表现。实验结果显示,现有高级语言模型代理在九个客户服务任务中的成功率不足40%,强调了提升代理功能的必要性。
完成下面两步后,将自动完成登录并继续当前操作。