大语言模型中的数学推理:跨广泛数字范围评估逻辑和算术错误
📝
内容提要
本研究解决了大语言模型在数学推理评估中只使用有限数字范围的局限,影响了现实问题解决的有效性。作者提出了GSM-Ranges数据集生成器,通过对数学问题中的数值进行系统性扰动,评估模型在不同数值范围内的鲁棒性,并提出了一种新颖的评分方法以区分逻辑和非逻辑错误。实验结果表明,在数值复杂性增加的情况下,逻辑错误率显著上升,模型在算术任务上的准确性在嵌入文字问题时大幅下降,提供了对大语言模型数学推理...
🏷️
标签
➡️