与直接偏好优化对齐的代码语言模型

本研究针对当前代码语言模型（CodeLLMs）在对齐阶段的不足，提出了一种新方法。通过引入直接偏好优化（DPO）算法，利用偏好数据对模型进行细粒度奖励，从而显著提升模型在各种基准测试中的表现，推动了代码生成技术的进步。

本文介绍了CodeUltraFeedback数据集，包含10,000个复杂指令，用于评估大型语言模型与用户编码偏好的对齐。通过AI反馈和增强学习，CodeLlama-7B-Instruct在CODAL-Bench上超越了34B模型，验证了其实用性。同时，优化后的CodeLlama模型在功能正确性上有所提升，为语言模型与编码偏好的对齐奠定了基础。