小红花·文摘

该研究探讨了大型语言模型（LLMs）在因果推断中的局限性，特别是在处理统计陷阱方面。通过CausalPitfalls基准，评估了LLMs在因果推理和答案可靠性方面的表现，结果显示其存在显著局限，为因果推理系统的发展提供了指导。