CLEVER:一个经过精心策划的形式化验证代码生成基准

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了高质量基准数据集CLEVER,包含161个专注于代码生成验证的问题。CLEVER避免了测试用例监督,确保输出通过Lean类型检查器验证,揭示了程序合成和形式推理的挑战。

🎯

关键要点

  • CLEVER是一个高质量的基准数据集,包含161个专注于代码生成验证的问题。
  • CLEVER避免了测试用例监督和生成的注释,确保输出通过Lean类型检查器验证。
  • 该数据集旨在保证可机检查的正确性。
  • 研究表明,现有的少样本和自主方法在实现完全验证方面面临挑战。
  • CLEVER揭示了程序合成和形式推理的前沿难题。
➡️

继续阅读