本研究提出了DI-BENCH基准框架,用于评估大型语言模型在依赖推断中的表现。实验结果显示,当前最佳模型的执行通过率仅为42.9%,表明在识别代码库所需组件和包方面仍有很大改进空间。这为软件合成的发展提供了新的视角。
完成下面两步后,将自动完成登录并继续当前操作。