本研究提出了IterPref框架,通过模拟人类的迭代调试来优化代码生成的大语言模型(LLM)。该方法能够有效定位代码错误,并利用定制的DPO算法对Token进行对齐,从而显著提升代码生成性能,尤其在复杂任务中表现更佳。
完成下面两步后,将自动完成登录并继续当前操作。