小红花·文摘

本研究通过对大型语言模型进行代码测试，展示了有趣性质并提出改进测试能力的方法。通过生成测试用例，提高了合成程序的质量。相较于GPT-3.5-turbo和最新技术，我们的方法在HumanEval+上的代码通过率分别提高了11.77%和4.22%。