语言模型的因果评估

通过引入评估语言模型因果推理能力的综合基准 CaLM，该论文提出了四个模块的基础分类法以及一个由 126,334 个数据样本组成的 CaLM 数据集，并对 28 个领先的语言模型进行了全面评估，并给出了 50 个高级经验发现，以提供未来语言模型开发的有价值指导。

本研究提出了一个名为CausalBench的基准测试系统，用于评估大型语言模型在理解因果关系方面的能力。研究使用CausalBench评估了19种领先的大型语言模型，揭示了它们的优势和弱点，并探索了它们在不同场景中的能力上限。研究还呈现了不同信息源之间的差异，并揭示了大型语言模型在文本和数值领域中对因果理解能力的差距。

CausalBench 因果关系大型语言模型能力评估语言模型