大型语言模型作为代码执行器:探索性研究
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
大型语言模型在软件工程自动化中取得进展,但在复杂编程任务中仍有挑战。通过包含1,140个任务的基准测试Bench评估,LLMs在准确执行复杂指令方面表现不佳,最高得分60%,远低于人类的97%。这显示LLMs在处理复杂任务时需改进。
🎯
关键要点
- 大型语言模型在软件工程自动化中取得进展,但在复杂编程任务中仍面临挑战。
- 基准测试Bench评估了LLMs在执行复杂指令方面的能力,结果显示最高得分仅为60%。
- 人类开发人员在相同任务中的得分为97%,显示出LLMs在处理复杂任务时的不足。
- Bench基准测试集包含1,140个细粒度的编程任务,要求LLMs调用多个函数作为工具。
- 每个编程任务包括5.6个测试用例,平均分支覆盖率达到99%。
- 提出了Bench的自然语言导向变体Benchi,以简化指令理解。
- 评估结果强调了在大型语言模型领域进一步改进的必要性。
➡️