本文介绍了一种基于AI反馈的强化学习框架(RLAIF),旨在提升轻量级大语言模型(LLMs)在代码生成中的能力。通过从更大模型(如GPT-3.5)提取反馈,训练奖励模型以改善小型LLMs的API调用能力。实验结果显示,使用RLAIF训练的780M参数模型在代码可执行性上超越了7B参数的基线模型,提升了4.5%的可执行率。
完成下面两步后,将自动完成登录并继续当前操作。