小红花·文摘

本研究提出了MultiChallenge基准，旨在评估大型语言模型在多轮对话中的能力。该基准识别了四类挑战，要求模型在执行指令和上下文推理方面表现出色。目前，尽管现有模型在其他评估中得分较高，但在MultiChallenge上的准确率均低于50%。