ClarQ-LLM:任务导向对话中模型澄清和请求信息的基准
原文中文,约600字,阅读约需2分钟。发表于: 。本研究提出了ClarQ-LLM,这是一个评估框架,旨在填补当前任务导向对话中对模型澄清能力的评估空白。该框架包含31种不同任务类型的对话场景,允许信息寻求者与信息提供者进行互动,显著提高了对模型在对话中询问澄清问题能力的测试。最重要的发现是,现有的寻求者代理在测试中表现不佳,仅实现60.05%的成功率,表明ClarQ-LLM为未来研究提供了巨大的挑战。
本研究提出了ClarQ-LLM评估框架,用于对话模型澄清能力评估。该框架包含31种不同任务类型的对话场景,提高了模型在对话中询问澄清问题的测试。现有的寻求者代理在测试中表现不佳,为未来研究提供了挑战。