CoSQA+:通过匹配代码增强代码搜索数据集
原文中文,约500字,阅读约需2分钟。发表于: 。语义代码搜索是软件工程中提高生产力的重要任务。该论文介绍了 CoSQA+,它通过将高质量的查询与多个合适的代码配对,来解决现有代码搜索数据集存在的问题,并利用大型语言模型自动化进行配对注释、过滤和代码生成,提高了模型性能。此外,还提出了一个新的评估标准 MMRR 来评估一对多代码搜索的性能。
本文介绍了一种新的代码到代码搜索技术,通过包括静态和动态特征以及在训练过程中利用相似和不同的示例来提高大型语言模型的性能。该方法能够在训练期间编码动态运行时信息,无需执行搜索语料库或搜索查询。研究验证了该方法的有效性,并展示了增强LLMs执行跨语言代码到代码搜索的能力。开源模型的重要性也得到了凸显。