大型语言模型(LLMs)在推理中引入了中间思维链(CoT)能力。研究表明,自一致性可作为思维必要性的指标,较低的一致性表明查询需要更多思考。基于此,提出了Sonata方法,能够自适应分配思维预算,优化性能与效率的平衡。实验结果显示,Sonata在保持准确率的同时,思维令牌减少20%至80%。
完成下面两步后,将自动完成登录并继续当前操作。