大规模语言模型在数学推理任务中的基准测试
原文中文,约500字,阅读约需2分钟。发表于: 。该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现,研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。
GPT-4是最先进的语言模型,在MaTT基准测试中的多项选择场景中仅达到54%的准确率。即使有提示,提升也很小。在没有选项的情况下,大型语言模型的准确率下降了24.2个百分点。大型语言模型在不同数学子主题上的表现差异显著。人工评估发现,只有53.3%的解释被认为是完整和准确的。