复合问答:评估大语言模型在复合问题上的基准
发表于: 。本研究解决了现有大语言模型(LLMs)评估基准未能考虑复合问题中多重子问题的互动这一缺口。我们提出了复合问题合成(CQ-Syn),创建了复合问答基准,专注于复合问题的评估,揭示了LLMs在此类问题上的表现显著低于单一问题。同时,探索了多种提升LLMs在复合问题理解与推理能力的方法。研究结果表明,这些方法能显著改善模型在复合问题上的表现。
本研究解决了现有大语言模型(LLMs)评估基准未能考虑复合问题中多重子问题的互动这一缺口。我们提出了复合问题合成(CQ-Syn),创建了复合问答基准,专注于复合问题的评估,揭示了LLMs在此类问题上的表现显著低于单一问题。同时,探索了多种提升LLMs在复合问题理解与推理能力的方法。研究结果表明,这些方法能显著改善模型在复合问题上的表现。