与直接偏好优化对齐的代码语言模型
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对当前代码语言模型(CodeLLMs)在对齐阶段的不足,提出了一种新方法。通过引入直接偏好优化(DPO)算法,利用偏好数据对模型进行细粒度奖励,从而显著提升模型在各种基准测试中的表现,推动了代码生成技术的进步。
本文介绍了CodeUltraFeedback数据集,包含10,000个复杂指令,用于评估大型语言模型与用户编码偏好的对齐。通过AI反馈和增强学习,CodeLlama-7B-Instruct在CODAL-Bench上超越了34B模型,验证了其实用性。同时,优化后的CodeLlama模型在功能正确性上有所提升,为语言模型与编码偏好的对齐奠定了基础。