数值精度如何影响大型语言模型的数学推理能力
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了理解和提升大型语言模型(LLMs)数学能力的挑战,重点关注数值精度对其算数表现的影响。我们发现,低数值精度的变换器模型在处理算术任务时表现不佳,而标准数值精度的模型则能有效处理同样任务,揭示了数值精度在提高LLMs数学推理能力中具有重要作用。
研究通过定义四个评估任务和多样提示,评估了十一种LLM模型。结果显示,GPT-4表现最佳,开源模型LLaMA-2-7B与GPT-3.5和Gemini Pro相当。计算错误是最具挑战性的错误类型,使用错误类型提示可提高修正准确率47.9%。研究为开发LLM的数学推理能力提供了潜在方向。