The New Stack ·

为什么仅靠更便宜的模型无法节省你的人工智能预算

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

随着智能代理的发展，工程师面临代币消耗过高的问题。复杂任务可能消耗数十万代币。为降低成本，团队探索了三种策略：压缩上下文、将任务分配给更便宜的模型，以及使用语义缓存以避免冗余计算。通过优化这些流程，组织可以显著降低代币消耗。

🎯

🔎

随着智能代理的普及，代币消耗问题日益严重。复杂任务的代币消耗可能高达数十万，这对工程师提出了新的挑战。理解代币消耗的机制，有助于团队在设计AI系统时做出更明智的决策，避免不必要的开支。

文章提出了三种降低代币消耗的策略：压缩上下文、将任务分配给更便宜的模型以及使用语义缓存。这些策略不仅能降低成本，还能提高系统的效率。团队在实施时需关注上下文管理和任务分解，以确保优化效果最大化。

在多代理架构中，代理之间的交互会导致代币消耗的叠加。每次代理之间的任务转移都需要传递上下文信息，这增加了额外的代币开销。因此，设计高效的代理交互流程是降低整体成本的关键。

❓

代币消耗过高是因为每个代理操作都需要消耗代币，复杂任务尤其如此，可能消耗数十万代币。

团队探索了三种策略：压缩上下文、将任务分配给更便宜的模型，以及使用语义缓存以避免冗余计算。

压缩上下文可以减少代理在每一步携带的上下文量，从而降低代币消耗。

将任务分配给更便宜的模型可以显著降低整体代币支出，尤其是对于常规操作。

语义缓存通过重用先前的推理链来避免重复计算，从而节省代币，特别是在处理相似问题时。

未来的系统需要关注上下文管理、任务分解和中间工作重用，以有效降低代币消耗。

🏷️