小红花·文摘

本文介绍了AdaptThink，一种新型强化学习算法，旨在提升推理模型效率。该算法根据问题难度自适应选择思维模式，实验证明在三个数学数据集上，平均响应长度降低53%，准确率提高2.4%。