小红花·文摘

本文研究了利用大型语言模型进行特定领域数学推导的能力，发现fine-tuned FLAN-T5-large (MathT5)在绝对性能方面超过了GPT模型，但对于涉及未知符号的扰动更为敏感。同时，分析了常见的推理错误和现有指标的适用性，总体来说，合成数据训练模型可以提高其数学能力。