卡内基梅隆大学、微软研究院和清华大学提出的ALAR框架,通过引入“推理深度自适应”,在多轮交互中显著减少生成Token,最高可达84.6%。该方法结合潜在推理与显式思维链,动态选择推理模式,优化决策效率,提升Agent在复杂任务中的表现,同时降低计算成本和响应时间。
完成下面两步后,将自动完成登录并继续当前操作。