用于代码的大型语言模型的程序测试能力
原文中文,约400字,阅读约需1分钟。发表于: 。利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
本研究使用L2CEval系统评估了大型语言模型在语言到代码生成方面的能力,并分析了影响其性能的因素。同时,提供了对模型能力和限制的全面了解,并发布了评估框架和所有模型输出,为该领域的进一步研究奠定基础。