小红花·文摘

本研究探讨大型语言模型（LLMs）的推理能力，发现其在归纳推理任务中表现优异，但在规则识别和应用方面存在不足。通过构建合成数据集和逻辑训练，提升了模型的推理能力，并揭示了模型的推理偏见，强调了评估程序的重要性。