小红花·文摘

该研究评估了数据增强和CodeT5模型在数学程序合成中的效果，结果显示CodeT5的执行准确率显著高于其他模型。同时，研究探讨了大型语言模型在自然语言描述的数学问题求解中的能力，发现GPT-4在复杂任务中表现优越，但数学推理能力仍需提升。