本研究提出了TD-EVAL框架,旨在改进任务导向对话系统的评估方法。该框架结合轮次级精确度与对话级比较,能够有效识别传统方法难以捕捉的对话错误,并在与人类评判一致性上优于传统评估,为未来的对话系统评估提供新思路。
完成下面两步后,将自动完成登录并继续当前操作。