Apple Machine Learning Research ·

强化代理：工具调用代理的推理时反馈

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文介绍了一种新型工具调用代理的评估方法，通过推理时的反馈提升工具选择和参数准确性。研究提出“有用性-有害性”指标，量化反馈的正负效应，以优化代理模型选择和提示设计。实验结果表明，分离执行与评审的架构能有效提高代理性能，避免重新训练基础代理。

🎯

🔎

本文提出的推理时反馈机制使得工具调用代理能够在执行前进行主动评估，从而减少错误。这种方法不仅提高了工具选择的准确性，还能在实时环境中进行错误缓解，显著提升了代理的整体性能。

研究中引入的“有用性-有害性”指标为评估反馈效果提供了量化依据。通过分析反馈对基础代理错误的纠正比例和正确响应的降低比例，开发者可以更好地选择合适的评审模型，以实现最佳的性能提升。

选择合适的评审模型对代理性能至关重要。实验结果显示，o3-mini模型的效益风险比明显优于GPT-4o，这提示开发者在设计代理时需重视模型的选择，以优化反馈机制的效果。

❓

工具调用代理的评估方法通过推理时的反馈提升工具选择和参数准确性，采用分离执行与评审的架构。

‘有用性-有害性’指标用于量化反馈的正负效应，以优化代理模型选择和提示设计。

通过选择合适的评审模型和自动化提示优化，可以有效提高代理的性能。

评审代理在执行前评估临时工具调用，实现主动评估和错误缓解。

o3-mini模型的效益风险比为3:1，而GPT-4o为2.1:1，表明o3-mini模型在性能上更具优势。

自动化提示优化通过GEPA提供额外的1.5-2.8%的性能提升。

🏷️