DependEval:对大型语言模型在代码库依赖理解能力的基准评估

📝

内容提要

本研究解决了大型语言模型(LLMs)在真实软件开发中处理复杂代码库依赖理解的能力不足的问题。我们提出了一个层级基准(DependEval),通过对15,576个真实代码库进行评估,专注于依赖识别、代码库构建和多文件编辑三项核心任务。研究发现,超过25个LLMs在这些任务上存在显著的性能差距,为进一步的模型优化提供了重要见解。

🏷️

标签

➡️

继续阅读