内容提要
苏黎世联邦理工学院的研究发现,AGENTS.md 文件可能会影响 AI 编码代理的性能。研究建议完全省略 LLM 生成的上下文文件,并限制人类编写的指令。结果显示,LLM 生成的文件降低了任务成功率,而人类编写的文件虽略有提升,但增加了步骤和成本。
关键要点
-
苏黎世联邦理工学院的研究发现,AGENTS.md 文件可能会妨碍 AI 编码代理的性能。
-
研究建议完全省略 LLM 生成的上下文文件,并限制人类编写的指令。
-
目前有 60,000 个开源代码库包含 AGENTS.md 等上下文文件,但缺乏严格的实证研究来验证这些文件是否真正提高了 AI 代理的编码能力。
-
研究团队构建了 AGENTbench 数据集,包含 138 个真实的 Python 任务,以避免流行基准的偏见。
-
研究测试了四个代理在三种不同场景下的表现:不使用上下文文件、使用 LLM 生成的文件和使用人类编写的文件。
-
结果显示,LLM 生成的上下文文件降低了任务成功率,平均减少了 3%。
-
人类编写的文件虽然略有提升,任务成功率平均提高了 4%,但增加了步骤和成本,最多提高了 19%。
-
AGENTS.md 文件中的架构概述或仓库结构解释并未减少模型寻找相关文件的时间。
-
研究发现,代理通常遵循 AGENTS.md 文件中的指令,导致执行更多不必要的测试和检查。
-
研究强调了研究结果与当前开发者使用 AI 编码代理的建议之间的差距。
延伸问答
AGENTS.md 文件对 AI 编码代理的影响是什么?
AGENTS.md 文件可能会妨碍 AI 编码代理的性能,导致任务成功率降低。
研究建议如何处理 LLM 生成的上下文文件?
研究建议完全省略 LLM 生成的上下文文件,并限制人类编写的指令。
人类编写的文件对任务成功率有什么影响?
人类编写的文件平均提高了任务成功率 4%,但增加了步骤和成本。
AGENTbench 数据集的目的是什么?
AGENTbench 数据集旨在避免流行基准的偏见,包含 138 个真实的 Python 任务。
研究中测试了哪些 AI 代理?
研究测试了 Claude 3.5 Sonnet、Codex GPT-5.2、GPT-5.1 mini 和 Qwen Code 四个代理。
使用 AGENTS.md 文件的开发者面临什么挑战?
开发者面临的挑战是 AGENTS.md 文件可能导致代理执行不必要的测试和检查,增加成本。