CoSQA+:通过匹配代码增强代码搜索数据集
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种新的代码到代码搜索技术,通过包括静态和动态特征以及在训练过程中利用相似和不同的示例来提高大型语言模型的性能。该方法能够在训练期间编码动态运行时信息,无需执行搜索语料库或搜索查询。研究验证了该方法的有效性,并展示了增强LLMs执行跨语言代码到代码搜索的能力。开源模型的重要性也得到了凸显。
🎯
关键要点
- 介绍了一种新的代码到代码搜索技术,结合静态和动态特征。
- 该方法在训练期间编码动态运行时信息,无需执行搜索语料库或查询。
- 首次训练正负参考样本的代码搜索技术。
- 研究验证了该方法的有效性,增强了LLMs执行跨语言代码搜索的能力。
- 评估表明该方法在各种模型架构和编程语言中效果一致。
- 消融研究显示即使只有一个正面和负面参考样本也能显著提高性能。
- 展示了经过调整的模型在性能上优于未调整的更大现代LLMs。
- 强调了开源模型的重要性,介绍了名为Cosco的开源实现和培训过程。
➡️