本文介绍了一种新型工具调用代理的评估方法,通过推理时的反馈提升工具选择和参数准确性。研究提出“有用性-有害性”指标,量化反馈的正负效应,以优化代理模型选择和提示设计。实验结果表明,分离执行与评审的架构能有效提高代理性能,避免重新训练基础代理。
完成下面两步后,将自动完成登录并继续当前操作。