小红花·文摘

本研究提出了ClarQ-LLM评估框架，用于对话模型澄清能力评估。该框架包含31种不同任务类型的对话场景，提高了模型在对话中询问澄清问题的测试。现有的寻求者代理在测试中表现不佳，为未来研究提供了挑战。