本研究提出了一种新方法,通过等价性检查评估大型语言模型的代码推理能力。引入EquiBench数据集,包含2400个程序对,结果表明当前模型在复杂类别上的表现仍需改进。
完成下面两步后,将自动完成登录并继续当前操作。