小红花·文摘

本研究提出了DI-BENCH基准框架，用于评估大型语言模型在依赖推断中的表现。实验结果显示，当前最佳模型的执行通过率仅为42.9%，表明在识别代码库所需组件和包方面仍有很大改进空间。这为软件合成的发展提供了新的视角。