像清水一般清澈透明 ·

Agent 越改越乱之后，我用评测和轨迹把它拉回来了

💡 原文中文，约17900字，阅读约需43分钟。

📝

内容提要

本文探讨了AI代理如何通过评测结果和执行轨迹实现自我进化。代理利用结构化的“技能”手册逐步完成任务，但在复杂案例中常出现错误。为解决此问题，提出了一套五步自进化流程，包括自动分析错误、生成修正补丁和验证修改等。适合自进化的任务需具备明确的对错标准，如代码审计。最终，系统通过不断迭代和验证，提升代理的稳定性和准确性。

🎯

关键要点

AI代理通过结构化的技能手册逐步完成任务，但在复杂案例中常出现错误。
提出了一套五步自进化流程，包括自动分析错误、生成修正补丁和验证修改等。
适合自进化的任务需具备明确的对错标准，如代码审计。
系统通过不断迭代和验证，提升代理的稳定性和准确性。
自进化的立足点是可靠的结果评测，每一步改动都需要一个客观信号来判断改动的好坏。
诊断引擎通过规则分析代理的执行过程，识别出错误原因并生成修正建议。
系统设计了多层验证机制，确保修改不会损坏已有功能。
黑名单机制记录失败的修改尝试，避免重复错误。
进化系统依赖于高质量的评测数据，确保结果的可靠性和稳定性。

🔎

延伸解读

自进化流程的适用性

自进化流程并不适用于所有类型的任务。只有那些输出结果能够被客观判定对错的任务，才能有效应用这一流程。例如，代码审计任务的结果是二元的（有漏洞或无漏洞），因此适合自进化。而开放式任务如文案撰写则因缺乏明确标准而不适合。

评测数据的重要性

高质量的评测数据是自进化系统的基础。评测结果的可靠性直接影响到系统的进化方向和效果。如果数据质量不高，可能导致错误的改动被引入，甚至使系统性能下降。因此，确保数据的准确性和完整性是实施自进化流程的关键。

风险与限制

尽管自进化系统能够提高代理的稳定性，但仍存在一些局限性。例如，系统只能优化现有的执行步骤，无法创造新的能力。此外，诊断规则的覆盖面有限，可能无法识别所有类型的错误。因此，在使用该系统时，需谨慎评估其适用性和潜在风险。

❓

延伸问答

AI代理如何实现自我进化？

AI代理通过评测结果和执行轨迹，利用五步自进化流程，包括自动分析错误、生成修正补丁和验证修改等，逐步提升任务处理能力。

适合自进化的任务有哪些特征？

适合自进化的任务需具备明确的对错标准，如代码审计等，输出结果能够被客观判定对错。

自进化流程的五个步骤是什么？

五个步骤包括：1) 跑测试任务，2) 自动分析错误，3) 生成修正补丁，4) 验证修改，5) 接受或丢弃修改。

如何确保AI代理的修改不会损坏已有功能？

系统设计了多层验证机制，确保修改不会损坏已有功能，并记录失败的修改尝试以避免重复错误。

评测数据的质量对自进化有何影响？

高质量的评测数据是自进化的基础，确保结果的可靠性和稳定性，影响系统的进化方向和效果。

自进化系统的局限性是什么？

系统只能改进执行步骤，无法增加新能力，且依赖于评测集的质量和规模，可能导致统计不稳定。

🏷️