本研究解决了大语言模型在编程任务中理解代码的推理和鲁棒性问题。通过采用五种保持语义的代码变异,我们评估了多个最先进的LLM是否能够正确理解Python程序,发现一些模型在61%的案例中基于错误推理作出正确预测,且对代码变异的预测变化显示出其有限的鲁棒性。这一发现对大语言模型在编程领域的有效应用提出了挑战。
本研究探讨了大语言模型在编程任务中的代码理解、推理与鲁棒性问题。通过五种代码变异评估,发现部分模型在61%的情况下基于错误推理仍能做出正确预测,显示其鲁棒性有限。这对大语言模型在编程领域的应用构成挑战。