Micropaper ·

AI 范式雷达：《自适应潜在推理：让 Agent 少想但想深》

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

卡内基梅隆大学、微软研究院和清华大学提出的ALAR框架，通过引入“推理深度自适应”，在多轮交互中显著减少生成Token，最高可达84.6%。该方法结合潜在推理与显式思维链，动态选择推理模式，优化决策效率，提升Agent在复杂任务中的表现，同时降低计算成本和响应时间。

🎯

🔎

ALAR框架通过引入推理深度自适应，解决了传统方法在多轮交互中效率低下的问题。它允许模型根据任务的复杂性动态选择推理模式，从而在保持准确率的同时显著减少Token消耗。这种方法不仅提升了决策效率，还降低了计算成本，适用于实时交互场景，具有广泛的应用潜力。

传统的推理方法在每个决策步骤都使用相同深度的思维链，导致Token浪费和效率低下。而ALAR通过双模式架构，结合潜在推理和显式思维链，能够在简单决策中使用紧凑的潜在表示，复杂决策时再切换到显式思维链。这种灵活性使得ALAR在多轮交互中表现出更高的效率和准确性。

ALAR采用动作监督学习机制，以动作为锚点进行自监督训练，直接优化Agent的决策能力。这种方法不同于传统依赖人工标注的推理过程，能够大规模利用现有的Agent执行轨迹数据进行训练，降低了标注成本，同时提升了模型的实际应用能力。

❓

ALAR框架的主要创新是引入了推理深度自适应，允许模型在多轮交互中根据任务难度动态切换推理模式，从而显著减少生成Token。

传统推理方法在每个决策步骤使用相同深度的思维链，导致Token浪费和效率低下，无法适应不同难度的决策。

ALAR通过动作监督学习机制，以动作为锚点进行自监督训练，直接优化Agent的决策能力，而不是依赖人工标注的推理过程。

在Tool Use基准上，ALAR能够将Token消耗减少84.6%，同时保持或提升准确率，显示出显著的效率提升。

自适应切换机制使模型能够根据任务难度选择合适的推理模式，从而优化推理资源的分配，提高决策效率。

ALAR的双模式架构结合了潜在推理和显式思维链，模型根据任务难度动态选择使用哪种推理模式，以提高效率。

🏷️