InfoQ ·

新研究重新评估 AGENTS.md 文件对 AI 编码的价值

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

苏黎世联邦理工学院的研究发现，AGENTS.md 文件可能会影响 AI 编码代理的性能。研究建议完全省略 LLM 生成的上下文文件，并限制人类编写的指令。结果显示，LLM 生成的文件降低了任务成功率，而人类编写的文件虽略有提升，但增加了步骤和成本。

🎯

关键要点

苏黎世联邦理工学院的研究发现，AGENTS.md 文件可能会妨碍 AI 编码代理的性能。
研究建议完全省略 LLM 生成的上下文文件，并限制人类编写的指令。
目前有 60,000 个开源代码库包含 AGENTS.md 等上下文文件，但缺乏严格的实证研究来验证这些文件是否真正提高了 AI 代理的编码能力。
研究团队构建了 AGENTbench 数据集，包含 138 个真实的 Python 任务，以避免流行基准的偏见。
研究测试了四个代理在三种不同场景下的表现：不使用上下文文件、使用 LLM 生成的文件和使用人类编写的文件。
结果显示，LLM 生成的上下文文件降低了任务成功率，平均减少了 3%。
人类编写的文件虽然略有提升，任务成功率平均提高了 4%，但增加了步骤和成本，最多提高了 19%。
AGENTS.md 文件中的架构概述或仓库结构解释并未减少模型寻找相关文件的时间。
研究发现，代理通常遵循 AGENTS.md 文件中的指令，导致执行更多不必要的测试和检查。
研究强调了研究结果与当前开发者使用 AI 编码代理的建议之间的差距。

❓

延伸问答

AGENTS.md 文件对 AI 编码代理的影响是什么？

AGENTS.md 文件可能会妨碍 AI 编码代理的性能，导致任务成功率降低。

研究建议如何处理 LLM 生成的上下文文件？

研究建议完全省略 LLM 生成的上下文文件，并限制人类编写的指令。

人类编写的文件对任务成功率有什么影响？

人类编写的文件平均提高了任务成功率 4%，但增加了步骤和成本。

AGENTbench 数据集的目的是什么？

AGENTbench 数据集旨在避免流行基准的偏见，包含 138 个真实的 Python 任务。

研究中测试了哪些 AI 代理？

研究测试了 Claude 3.5 Sonnet、Codex GPT-5.2、GPT-5.1 mini 和 Qwen Code 四个代理。

使用 AGENTS.md 文件的开发者面临什么挑战？

开发者面临的挑战是 AGENTS.md 文件可能导致代理执行不必要的测试和检查，增加成本。

🏷️

继续阅读

AI 与新一代编解码器正在重塑编码创新
随着超高清、HDR和8K技术的发展，视频编码成为广播和流媒体服务的核心。AI驱动的内容感知编码和新一代编解码器提升了视频质量并降低了带宽成本。服务提供商需...
破解AI代理：通过GitHub安全代码游戏培养代理AI安全技能
文章讨论了应用安全和代码安全风险评估工具，该工具提供一键查看组织内漏洞的功能，并且免费使用。同时介绍了GitHub Copilot CLI的入门教程，帮助...
新研究揭示，克服传统技术问题是AI成功的关键
IDC研究表明，亚太地区企业在AI成功与否的关键在于技术基础设施的现代化。现代化不仅涉及技术更新，更是企业战略的核心。领导者企业通过持续投资和整合现代化，...
Chrome 现在允许用户将 AI 提示转化为可重复使用的“技能”
谷歌在Chrome浏览器中推出了新功能“技能”，允许用户保存和重复使用AI提示。用户可以通过输入斜杠（/）来管理这些技能，方便在不同网页间快速调用。此功能...
将您最佳的AI提示转化为Chrome中的一键工具
谷歌在Chrome中推出了“技能”功能，用户可以保存和重用AI提示，简化网页操作。用户可通过输入斜杠（/）或点击加号（+）快速调用技能，适用于健康、购物和...
Wellfound如何在一个周末内构建AI视频面试
Wellfound推出了一项AI视频面试功能，帮助候选人超越简历展示自我。该功能利用Mux进行转录，生成答案摘要和反馈，提升招聘效率。候选人可录制一次面试...