本研究介绍了ConceptMath,这是一个评估大型语言模型数学推理能力的双语基准。与传统基准不同,ConceptMath按数学概念层次组织问题,揭示了模型在不同概念上的性能差异。研究还提出了微调策略以提升模型表现,并评估了大型语言模型在金融和小学数学领域的能力,发现GPT-4在多个测试中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。