基于对话测试套件的程序修复潜力探索
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对自动程序修复在项目层面的潜力,探索了基于对话的补丁生成在SWE-Bench上的有效性。研究表明,利用LLaMA 3.1 70B构建的简单对话管道,在47%的案例中能够生成有效补丁,结果与现有的程序修复技术相当,展示了这一方法的应用潜力。
本文评估了ChatGPT的代码生成能力,通过131个提示的数据集与人类程序员的代码进行比较。结果显示,ChatGPT在简洁高效代码和数据分析任务中表现出色,但在视觉图形方面有局限。分析表明,ChatGPT倾向于模块化设计和优秀的错误处理。机器学习模型能以88%的准确率区分ChatGPT和人类代码,揭示了编码风格差异。这项研究为AI编程助手的发展提供了重要见解。