重新思考在测试时计算扩展下的微调:限制置信度改善数学推理
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究探讨了如何优化大型语言模型(LLMs)的训练,以适应测试时的计算策略。结果表明,交叉熵损失函数可能导致模型过于自信,从而影响准确性。通过限制置信度,提出了一种改进的训练损失,显著提升了数学推理能力。
🎯
关键要点
- 本研究探讨如何优化大型语言模型(LLMs)的训练以适应测试时的计算策略。
- 研究表明,交叉熵损失函数可能导致模型过于自信,影响准确性。
- 通过限制置信度,提出了一种改进的训练损失。
- 改进的训练损失显著提升了模型的数学推理能力。
➡️