大型语言模型对数学问题中的不合理性无意识
大型语言模型在解决数学问题方面具有重大能力,但在面对包含不合理错误的问题时倾向于产生幻觉。本文研究了 LLM 在面对不合理数学问题时的行为,并进一步探讨了它们解决这些问题的潜力。实验表明,LLM 能够检测到不合理错误,但在生成非幻觉性内容方面仍然失败。为了提高它们的错误检测和修正能力,我们设计了一种战略提示模板,称为 Critical Calculation and Conclusion(CCC)。借助 CCC,LLM 可以更好地自我评估和检测数学问题中的不合理错误,使其在实际应用场景中更可靠和安全。
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但在几何推理方面仍有局限性。研究发现LLMs在构造性几何问题求解上存在偏见,并在二维空间关系方面遇到困难。为此,提出了一个基于LLMs的多智能体系统框架,通过内部对话来增强推理潜力。这项工作旨在改善LLMs的几何推理能力。