本研究提出了S1-Bench,一个多领域多语言的问题集,用于评估大型推理模型在简单任务中的思维能力。对22个大型推理模型的评估显示其效率低下,思维平衡和任务复杂性适应性不足。
完成下面两步后,将自动完成登录并继续当前操作。