代码大型语言模型的代码比较调整

代码比较调优 (CCT) 是用于优化大型编程语言模型（Code LLMs）以更好地处理微妙的代码错误的简单而有效的调优方法。通过在标记和序列级别上将比较的概念引入指令调优中，使模型能够辨别代码中最细微的偏差。与包含手动添加的代码错误的原始代码进行比较时，我们使用标记级别的偏好损失进行详细的标记级别比较。此外，我们将代码段组合起来，创建一个新的指令调优样本用于序列级别比较，增强了模型的错误修复能力。在 HumanEvalFix 基准测试中的实验结果表明，CCT 在各种代码 LLMs 上的 pass@1 分数超过了指令调优 4 个点，并且广泛的分析证明了我们方法的有效性。

本文介绍了一种新的代码到代码搜索技术，通过静态和动态特征以及利用相似和不同的示例来提高大型语言模型的性能。该方法能够在训练期间编码动态运行时信息，无需执行搜索语料库或搜索查询。研究验证了该方法的有效性，并展示了增强LLMs执行跨语言代码到代码搜索的能力。评估结果表明，该方法在各种模型架构和编程语言中都是一致的。研究还证明了相似和不同的参考是代码搜索的重要部分。

Dify.AI	观测云
LigaAI	eolink