该研究评估了数据增强和CodeT5模型在数学程序合成中的效果,结果显示CodeT5的执行准确率显著高于其他模型。同时,研究探讨了大型语言模型在自然语言描述的数学问题求解中的能力,发现GPT-4在复杂任务中表现优越,但数学推理能力仍需提升。
完成下面两步后,将自动完成登录并继续当前操作。