DI-BENCH:大规模依赖推断基准测试大型语言模型
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了DI-BENCH基准框架,用于评估大型语言模型在依赖推断中的表现。实验结果显示,当前最佳模型的执行通过率仅为42.9%,表明在识别代码库所需组件和包方面仍有很大改进空间。这为软件合成的发展提供了新的视角。
🎯
关键要点
-
本研究提出了DI-BENCH基准框架,用于评估大型语言模型在依赖推断中的表现。
-
DI-BENCH框架包含581个代码库,旨在解决大型语言模型在识别代码库所需组件和包方面的不足。
-
实验结果显示,当前最佳模型的执行通过率仅为42.9%,表明在该领域仍有很大改进空间。
-
该研究为软件合成的发展提供了新的视角,推动了更强大的软件合成技术的进步。
🏷️