本研究提出了基于大型语言模型的CodeSift框架,解决了自动代码生成后功能正确性验证的挑战。实验结果显示,CodeSift在三个数据集上超越了现有的代码评估方法,且与专家的偏好一致,证明其作为可靠自动代码验证工具的有效性。
完成下面两步后,将自动完成登录并继续当前操作。