小红花·文摘

本研究提出了一种新方法，通过等价性检查评估大型语言模型的代码推理能力。引入EquiBench数据集，包含2400个程序对，结果表明当前模型在复杂类别上的表现仍需改进。