小红花·文摘

本研究分析了大型语言模型（LLM）在自我纠错中的局限性，特别是在检测算术错误方面。研究发现，模型主要依赖表面一致性评估，算术运算在高层进行，而验证在中层进行。这种计算与验证的分离导致LLM在识别简单算术错误时面临困难。