小红花·文摘

本文研究了预训练语言模型在数学推理中的能力，发现模型对高频词语的推理更为准确，并探讨了多语种环境下的推理能力。通过设计训练数据和分析错误类型，提升了模型的自检能力。同时，研究揭示了数据污染对模型性能的影响，强调了严格评估推理过程的重要性，为未来数学推理能力的发展提供了方向。