本研究提出了《协作超煮》基准测试,以评估大型语言模型的协作能力。通过多代理框架和新评估指标,研究发现模型在目标理解方面表现良好,但在积极协作和适应性方面存在差异。
完成下面两步后,将自动完成登录并继续当前操作。