数值精度如何影响大型语言模型的数学推理能力

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

研究通过定义四个评估任务和多样提示,评估了十一种LLM模型。结果显示,GPT-4表现最佳,开源模型LLaMA-2-7B与GPT-3.5和Gemini Pro相当。计算错误是最具挑战性的错误类型,使用错误类型提示可提高修正准确率47.9%。研究为开发LLM的数学推理能力提供了潜在方向。

原文中文,约300字,阅读约需1分钟。
阅读原文