量子位 ·

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

字节跳动与南京大学联合推出的CriticLean框架，将数学自然语言转化为Lean 4代码的准确率从38%提升至84%。该框架通过强化学习和评估模型，解决了数学形式化中的语义对齐和评价可靠性问题，显著增强了自动化定理证明能力。

🎯

🔎

CriticLean框架通过引入强化学习的Critic模型，解决了数学形式化中的语义对齐和评价可靠性问题。这种创新不仅提升了准确率，还为自动化定理证明提供了新的思路，可能会推动相关领域的进一步研究与应用。

CriticLeanBench作为首个聚焦形式化任务语义评估的基准测试，涵盖多种错误类型，确保评估的全面性和可靠性。通过与其他模型的对比，CriticLeanGPT在准确率和错误识别能力上表现优异，为模型的实际应用提供了有力支持。

FineLeanCorpus是目前规模最大、质量最高的数学形式化数据集之一，涵盖多个数学领域。其样本经过严格的语法检查和语义验证，确保了数据的可靠性。这为后续研究提供了坚实的基础，尤其是在复杂数学命题的处理上。

❓

CriticLean框架将数学自然语言转化为Lean 4代码的准确率从38%提升至84%，通过强化学习和评估模型解决语义对齐和评价可靠性问题。

CriticLeanGPT模型通过识别12类常见错误，结合语义评价和编译器反馈，提升了形式化结果的准确性。

CriticLeanBench是用于评估数学形式化任务的基准测试，旨在衡量模型将自然语言数学陈述转化为形式验证定理声明的能力。

CriticLean框架解决了语义对齐、评价可靠性和数据质量等挑战，促进了数学自动化形式化的进步。

FineLeanCorpus是规模最大、质量最高的数学形式化数据集之一，包含285,957条样本，覆盖多个数学领域，且每条样本经过语法和语义验证。

应用CriticLean框架后，自动形式化流程的准确率从38%提升至84%，其中语义评估环节贡献了30个百分点的提升。

🏷️