小红花·文摘

本研究提出了TD-EVAL框架，旨在改进任务导向对话系统的评估方法。该框架结合轮次级精确度与对话级比较，能够有效识别传统方法难以捕捉的对话错误，并在与人类评判一致性上优于传统评估，为未来的对话系统评估提供新思路。