InfoQ ·

DoorDash构建LLM对话模拟器，以大规模测试客服聊天机器人

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

DoorDash开发了一种模拟评估系统，能够快速进行数百次客服聊天机器人测试，显著提高实验效率。该系统将幻觉率降低了约90%，通过生成真实客户互动的多轮对话，结合自动评估框架，确保聊天机器人在实际场景中的表现。工程师通过持续迭代优化提示和上下文处理，以达到上线前的评估标准。

🎯

❓

DoorDash的模拟评估系统可以快速进行数百次客服聊天机器人测试，提高实验效率，并降低幻觉率约90%。

通过上下文工程改进和自动评估框架，DoorDash的系统有效地降低了聊天机器人的幻觉率。

测试流程包括识别客户问题、创建评估、生成对话、分析错误并进行迭代，直到达到可接受的评估通过率。

传统客服自动化依赖于确定性决策树，而LLM驱动的代理处理自然对话，导致小调整可能产生不可预测的结果。

DoorDash通过识别失败案例、添加评估检查和生成额外模拟来处理聊天机器人中的失败案例。

模拟器使用历史支持记录推导客户意图和行为模式，生成反映真实客户互动的多轮对话。

🏷️

超越人手！中国第一家脑机接口独角兽，要把仿生手带给机器人
强脑科技推出了新型灵巧手Revo 3，具备21个自由度和全掌触觉，灵活性和感知力行业领先。该手适用于残障人士和机器人，推动脑机接口与灵巧手的结合。Revo...
中国具身模型狂揽全球第一！机器人的人类数据时代来了
灵初智能推出10万小时人类数据集，凭借双系统架构Psi-R2和Psi-W0，推动机器人精细操作与失败经验学习，成为具身智能领域的领军者。开源策略促进数据采集与行业发展。
一款基于 WPF 开发的功能强大、现代化终端模拟器，支持连接多种目标设备和协议！
ModengTerm 是一款基于 WPF 的开源终端模拟器，支持 SSH、串口和 TCP 等多种连接方式，适用于系统管理、网络运维、嵌入式开发和物联网应用...
国家机器人周 — 最新的物理人工智能研究、突破与资源
在国家机器人周期间，NVIDIA展示了人工智能在农业、制造和能源等行业的应用，强调了机器人学习、仿真和基础模型的进步。这些进展加速了机器人从虚拟环境到现实...
Evaluating Netflix Show Synopses with LLM-as-a-Judge
by Gabriela Alessio, Cameron Taylor, and Cameron R. WolfeIntroductionWhen mem...
GitHub Copilot CLI Reaches General Availability
GitHub has launched Copilot CLI into general availability, bringing generativ...