大型语言模型在逻辑推理中的记忆机制研究

本研究针对大型语言模型（LLMs）在推理任务中的表现与记忆现象进行系统调查，指出LLMs可能通过记忆相似问题而在逻辑推理基准测试中达到高分。尽管模型在特定任务上表现较好，但是在稍有改动的相似问题上却可能出现失败，表明其在解决这些问题时极度依赖于记忆。此外，研究表明尽管细调会导致显著的记忆现象，但也能持续改善模型的泛化能力，从而揭示了记忆与真实推理能力之间的复杂关系。

我们介绍了CHARM基准，用于评估大型语言模型的中文常识推理能力。研究表明，提示策略受模型定位和任务领域影响，部分模型在常识记忆方面存在困难，进而影响推理能力。此研究明确了模型的优劣，为优化提供了方向，并可为其他研究提供参考。

CHARM 优化大型语言模型常识推理提示策略语言模型