xVerify是一种高效的答案验证工具,旨在评估推理模型的输出。它通过处理复杂推理过程,准确提取最终答案并检查其等价性。研究者构建了VAR数据集,包含来自19个大型语言模型的多样化响应。xVerify在准确性、泛化能力和计算效率上优于传统评估方法,显示出其在推理模型评估中的重要性。
完成下面两步后,将自动完成登录并继续当前操作。