小红花·文摘

本研究提出了IterPref框架，通过模拟人类的迭代调试来优化代码生成的大语言模型（LLM）。该方法能够有效定位代码错误，并利用定制的DPO算法对Token进行对齐，从而显著提升代码生成性能，尤其在复杂任务中表现更佳。