本研究提出了ClarQ-LLM评估框架,用于对话模型澄清能力评估。该框架包含31种不同任务类型的对话场景,提高了模型在对话中询问澄清问题的测试。现有的寻求者代理在测试中表现不佳,为未来研究提供了挑战。
完成下面两步后,将自动完成登录并继续当前操作。