小红花·文摘

本研究提出了基于大型语言模型的CodeSift框架，解决了自动代码生成后功能正确性验证的挑战。实验结果显示，CodeSift在三个数据集上超越了现有的代码评估方法，且与专家的偏好一致，证明其作为可靠自动代码验证工具的有效性。