DI-BENCH:大规模依赖推断基准测试大型语言模型

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了DI-BENCH基准框架,用于评估大型语言模型在依赖推断中的表现。实验结果显示,当前最佳模型的执行通过率仅为42.9%,表明在识别代码库所需组件和包方面仍有很大改进空间。这为软件合成的发展提供了新的视角。

🎯

关键要点

  • 本研究提出了DI-BENCH基准框架,用于评估大型语言模型在依赖推断中的表现。

  • DI-BENCH框架包含581个代码库,旨在解决大型语言模型在识别代码库所需组件和包方面的不足。

  • 实验结果显示,当前最佳模型的执行通过率仅为42.9%,表明在该领域仍有很大改进空间。

  • 该研究为软件合成的发展提供了新的视角,推动了更强大的软件合成技术的进步。

🏷️

标签

➡️

继续阅读