GPT-4是最先进的语言模型,在MaTT基准测试中的多项选择场景中仅达到54%的准确率。即使有提示,提升也很小。在没有选项的情况下,大型语言模型的准确率下降了24.2个百分点。大型语言模型在不同数学子主题上的表现差异显著。人工评估发现,只有53.3%的解释被认为是完整和准确的。
完成下面两步后,将自动完成登录并继续当前操作。