哪个编程语言及其特征在预训练阶段影响下游逻辑推理性能？

本研究针对大型语言模型在逻辑推理中的表现，探讨了不同编程语言和其特征在预训练阶段的影响。我们通过相同条件下对十种编程语言和三种自然语言数据集进行预训练，结果表明编程语言在逻辑推理任务中表现优于自然语言，并且抽象语法树的深度对推理能力也有显著影响。这一发现为大型语言模型预训练的重要元素提供了新的见解。

我们引入了LogicAsker，一种自动方法，用于评估和改进大型语言模型的逻辑推理能力。在GPT-3、ChatGPT、GPT-4等模型上测试，逻辑推理错误率从25%到94%不等。通过设计上下文学习示例，GPT-4的逻辑推理能力提升了10%。这是首次通过测试结果创建提示来增强模型的形式推理能力。所有代码和数据将公开。

GPT-4 LogicAsker 上下文学习大型语言模型编程语言逻辑推理