小红花·文摘

本文介绍了SCORE框架，用于分析大型语言模型的推理能力。研究发现，大型语言模型在涉及上下文信息和常识的推理任务中存在自相矛盾的问题。SCORE结果凸显了推理的缺乏鲁棒性，强调了进一步研究推理最佳实践的紧迫性。