本研究提出了一种利用大型语言模型生成合成数据的方法,以解决自动程序修复中高质量训练数据稀缺的问题。生成了约30,000个错误代码与修复代码的配对示例,显著提高了预测准确率,推动了自动代码维护工具的发展。
本研究探讨了自动程序修复(APR)中修复输出与迭代的平衡,提出了一种新方法,限制每个错误生成最多10个补丁。结果表明,利用不到1%的微调数据集,生成的可行补丁数量提升了78%,强调了迭代策略在复杂基准测试中的优势,推动了APR领域的有效发展。
本研究提出SWE-Synth框架,解决大型语言模型在自动程序修复中缺乏高质量训练数据的问题。通过模拟调试流程合成可验证的错误修复数据,显著提升了模型在修复任务中的表现,推动了自动程序修复和软件工程自动化的发展。
本研究评估了27篇论文,探讨了自动程序修复与大规模语言模型(LLM)在代码生成中的应用,提出通过LLM提升调试的准确性和效率,并分析了功能正确性与安全性面临的挑战。
本研究比较和评估了现有ChatGPT版本在自动程序修复中的有效性,发现最新的O1模型在修复成功率、修复成本和行为模式等方面优于传统的ChatGPT,成功修复了40个漏洞,为ChatGPT在自动程序修复中的应用提供了参考。
完成下面两步后,将自动完成登录并继续当前操作。