EquiBench: Evaluating the Code Reasoning Ability of Large Language Models through Equivalence Checking
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新方法,通过等价性检查评估大型语言模型的代码推理能力。引入EquiBench数据集,包含2400个程序对,结果表明当前模型在复杂类别上的表现仍需改进。
🎯
关键要点
-
本研究提出了一种新方法,通过等价性检查评估大型语言模型的代码推理能力。
-
引入EquiBench数据集,包含2400个程序对,涵盖四种编程语言及六种等价类别。
-
研究结果显示,当前先进模型在复杂类别上的表现仍有显著提升空间。
-
在复杂类别上,模型的准确率仅略高于随机猜测水平。
➡️