本文介绍了高质量基准数据集CLEVER,包含161个专注于代码生成验证的问题。CLEVER避免了测试用例监督,确保输出通过Lean类型检查器验证,揭示了程序合成和形式推理的挑战。
完成下面两步后,将自动完成登录并继续当前操作。