小红花·文摘

本研究提出了S1-Bench，一个多领域多语言的问题集，用于评估大型推理模型在简单任务中的思维能力。对22个大型推理模型的评估显示其效率低下，思维平衡和任务复杂性适应性不足。