💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

DoorDash开发了一种模拟评估系统,能够快速进行数百次客服聊天机器人测试,显著提高实验效率。该系统将幻觉率降低了约90%,通过生成真实客户互动的多轮对话,结合自动评估框架,确保聊天机器人在实际场景中的表现。工程师通过持续迭代优化提示和上下文处理,以达到上线前的评估标准。

🎯

关键要点

  • DoorDash开发了一种模拟评估系统,加速大语言模型驱动的客服聊天机器人的开发和测试。
  • 该系统允许工程师在几分钟内运行数百次模拟对话,显著提高实验效率。
  • 通过该框架验证的上下文工程改进将幻觉率降低了约90%。
  • 传统的客服自动化依赖于确定性决策树,而LLM驱动的代理处理自然对话,导致小调整可能产生不可预测的结果。
  • DoorDash构建了一个离线实验框架,结合了LLM驱动的客户模拟器和自动评估系统。
  • 模拟器生成反映真实客户互动的多轮对话,使用历史支持记录推导客户意图和行为模式。
  • 在模拟环境中,LLM充当客户,生产聊天机器人则根据真实互动进行响应。
  • 自动评估框架根据预定义的政策和指标对结果进行分类,包括合规性、幻觉率、语气和任务完成准确性。
  • 工程师识别失败案例,添加评估检查,并生成针对这些场景的额外模拟。
  • 早期发布揭示过载的上下文窗口导致的幻觉,工程师实施了二元幻觉指标和基于观察到的失败的测试场景。
  • DoorDash的飞轮遵循结构化的问题到生产工作流程,确保在上线前进行充分的评估和验证。
➡️

继续阅读