本文研究了利用大型语言模型进行特定领域数学推导的能力,发现fine-tuned FLAN-T5-large (MathT5)在绝对性能方面超过了GPT模型,但对于涉及未知符号的扰动更为敏感。同时,分析了常见的推理错误和现有指标的适用性,总体来说,合成数据训练模型可以提高其数学能力。
完成下面两步后,将自动完成登录并继续当前操作。