一个大规模的面向类的基准数据集用于代码生成与大语言模型

本研究解决了现有基准主要集中于孤立函数而忽视真实世界面向类的软件结构复杂性的问题。我们提出了一个基于13174个真实开源项目构建的大规模Python类级数据集,包含超过842,000个类骨架,并通过使用提取的类骨架作为提示来提高LLM在类级代码生成中的表现。研究结果表明,LLM生成的类在词汇和结构上与人类编写的代码相似,显著提升了软件工程中的应用潜力。

本研究构建了一个包含13174个真实开源项目的大规模Python类级数据集,涵盖842,000个类骨架,旨在提升大型语言模型在类级代码生成中的表现。研究结果表明,生成的类与人类编写的代码相似,增强了软件工程的应用潜力。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文