小红花·文摘

该研究提出了TRIGO，用于评估生成型语言模型在公式推理、数字项操作、分组和因式分解方面的推理能力。实验结果显示，TRIGO对于包括在大量开源形式定理证明语言数据上预训练的GPT-4在内的先进生成型语言模型提出了新的挑战。