Micropaper ·

一分钟读论文：《用 LLM 作为开发者评估 Agent 开发框架》

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

俄亥俄州立大学与微软合作提出了LLM-as-a-Developer评估范式，利用大型语言模型（LLM）替代人类开发者，自动化评估代理开发框架（ADK）。研究评估了51个Python ADK框架，发现生成成本差异显著，且没有框架占绝对优势。文档和源代码等信息源在生成成功率上互为补充。

🎯

🔎

LLM作为开发者的评估范式，能够自动化评估多个Agent开发框架，避免了传统方法中的人为偏差。这种方法不仅提高了评估效率，还能在生态规模上进行框架对比，提供更全面的性能分析。

研究发现，不同框架的生成成本差异高达5.6倍，设计良好的API能显著降低成本。这提示开发者在选择框架时，需关注API的设计质量，以优化开发资源的使用。

文档、源代码和参数化知识在生成成功率上互为补充，表明没有单一信息源是硬性瓶颈。这一发现强调了多样化信息来源的重要性，开发者应综合利用不同资源以提高开发效率。

❓

LLM-as-a-Developer评估范式将大型语言模型视为开发者，通过学习框架API、编写代码并迭代调试，量化评估Agent开发框架的可用性和效能。

研究评估了51个流行的Python ADK框架。

生成任务的成功率约为57%，但不同框架的生成成本相差高达5.6倍。

设计良好的API（如LangGraph和OpenAI Agents）成本最低，而文档不佳的大型框架生成可用Agent的成本显著增加。

这意味着在评估中，没有单一框架能够 consistently outperform 其他框架，最佳框架仅能解决80%的任务，而中位框架仅能解决32%的任务。

消融实验表明，文档、源代码和参数化知识在生成成功率上互为补充，没有单一信息源是硬性瓶颈。

🏷️