小红花·文摘

本文介绍了高质量基准数据集CLEVER，包含161个专注于代码生成验证的问题。CLEVER避免了测试用例监督，确保输出通过Lean类型检查器验证，揭示了程序合成和形式推理的挑战。

BriefGPT - AI 论文速递 ·

本文提出了FormalMATH，一个包含5560个经过形式验证的数学问题的大型基准，旨在提升人工智能的形式数学推理能力。研究通过人机协作的自动形式化流程，降低了专业标注成本，并揭示了当前语言模型在形式证明中的局限性，为未来研究指明了方向。

BriefGPT - AI 论文速递 ·

本研究通过混合数据集和强化学习优化自动定理证明（ATP）在形式推理中的应用，显著提升了多种形式证明工具的性能，达到行业领先水平。

BriefGPT - AI 论文速递 ·

形式验证的历史和方法，包括形式推理、可证明的递归函数和类型论。形式验证对编程语言理论的影响，包括类型系统的发展和依赖类型语言的应用。实践方面包括SMT求解器、程序逻辑和模型检查。

极道 ·