大型语言模型对数学问题中的不合理性无意识

大型语言模型在解决数学问题方面具有重大能力，但在面对包含不合理错误的问题时倾向于产生幻觉。本文研究了 LLM 在面对不合理数学问题时的行为，并进一步探讨了它们解决这些问题的潜力。实验表明，LLM 能够检测到不合理错误，但在生成非幻觉性内容方面仍然失败。为了提高它们的错误检测和修正能力，我们设计了一种战略提示模板，称为 Critical Calculation and Conclusion（CCC）。借助 CCC，LLM 可以更好地自我评估和检测数学问题中的不合理错误，使其在实际应用场景中更可靠和安全。

大型语言模型（LLMs）在数学和算法任务中展现日益增长的能力，但在几何推理方面仍有局限性。研究发现LLMs在构造性几何问题求解上存在偏见，并在二维空间关系方面遇到困难。为此，提出了一个基于LLMs的多智能体系统框架，通过内部对话来增强推理潜力。这项工作旨在改善LLMs的几何推理能力。