本研究探讨了如何优化大型语言模型(LLMs)的训练,以适应测试时的计算策略。结果表明,交叉熵损失函数可能导致模型过于自信,从而影响准确性。通过限制置信度,提出了一种改进的训练损失,显著提升了数学推理能力。
完成下面两步后,将自动完成登录并继续当前操作。