本研究提出了MultiChallenge基准,旨在评估大型语言模型在多轮对话中的能力。该基准识别了四类挑战,要求模型在执行指令和上下文推理方面表现出色。目前,尽管现有模型在其他评估中得分较高,但在MultiChallenge上的准确率均低于50%。
完成下面两步后,将自动完成登录并继续当前操作。