该研究提出了TRIGO,用于评估生成型语言模型在公式推理、数字项操作、分组和因式分解方面的推理能力。实验结果显示,TRIGO对于包括在大量开源形式定理证明语言数据上预训练的GPT-4在内的先进生成型语言模型提出了新的挑战。
完成下面两步后,将自动完成登录并继续当前操作。