思维的幻觉:通过问题复杂性视角理解推理模型的优势与局限性
Recent generations of frontier language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes before providing answers. While these models demonstrate...
近期的前沿语言模型引入了大型推理模型(LRMs),这些模型在回答前生成详细的思考过程。尽管在推理基准上有所提升,但其基本能力和局限性仍不明确。现有评估主要关注最终答案的准确性,忽视了推理过程的结构和质量。通过可控的难题环境研究发现,当复杂性超出一定范围时,LRMs的准确性会完全崩溃,且在高复杂性任务中表现不佳。
