小红花·文摘

本研究提出了《协作超煮》基准测试，以评估大型语言模型的协作能力。通过多代理框架和新评估指标，研究发现模型在目标理解方面表现良好，但在积极协作和适应性方面存在差异。