小红花·文摘

本研究探讨了如何优化大型语言模型（LLMs）的训练，以适应测试时的计算策略。结果表明，交叉熵损失函数可能导致模型过于自信，从而影响准确性。通过限制置信度，提出了一种改进的训练损失，显著提升了数学推理能力。