掩盖思路：简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

在推理任务中，我们发展了一种避免使用外部资源的训练方法，通过对输入引入扰动，特别针对推理任务我们发现随机屏蔽思考链中的某些标记是特别有效的。当应用于使用 GSM8K 进行微调时，此方法相比于标准的有监督微调在准确性方面提高了 5%，无需额外的标记工作。此外，它与现有方法相辅相成，当与相关的数据增强方法整合时，它在五个不同质量和大小的数据集以及两个基本模型上分别提高了 3% 和 1%...

研究人员开发了一种无需外部资源的训练方法，通过对输入引入扰动提高了准确性。使用GSM8K进行微调时，相比标准有监督微调提高了5%的准确性。与现有方法相结合，在不同质量和大小的数据集上分别提高了3%和1%的准确性。通过案例研究和定量分析，研究人员发现这种改进的机制可能为模型提供更好的支持。

GSM8K 准确性扰动数据集训练方法语言模型