Integrating Symbolic Execution into the Fine-Tuning of Code Generation Large Language Models 本研究解决了代码生成大语言模型(LLMs)在微调过程中性能提升的难题。通过结合强化学习和直接偏好优化,利用符号执行技术增强奖励模型的训练数据,从而实现更全面的数据反馈。研究结果表明,改进后的奖励模型在生成代码质量估计上显著优于现有基准CodeRL,展示了符号执行在提升模型能力方面的潜在影响。 本研究探讨了结合强化学习与符号执行技术以提升代码生成大语言模型(LLMs)微调性能的方法。改进后的奖励模型在生成代码质量上显著优于现有基准CodeRL,展示了符号执行的潜力。 models 代码生成 大语言模型 奖励模型 强化学习 符号执行