本文介绍了AdaptThink,一种新型强化学习算法,旨在提升推理模型效率。该算法根据问题难度自适应选择思维模式,实验证明在三个数学数据集上,平均响应长度降低53%,准确率提高2.4%。
完成下面两步后,将自动完成登录并继续当前操作。