小红花·文摘

本研究介绍了ConceptMath，这是一个评估大型语言模型数学推理能力的双语基准。与传统基准不同，ConceptMath按数学概念层次组织问题，揭示了模型在不同概念上的性能差异。研究还提出了微调策略以提升模型表现，并评估了大型语言模型在金融和小学数学领域的能力，发现GPT-4在多个测试中表现优异。