机器之心 ·

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

由香港科技大学等单位组成的研究团队开源了一系列形式化推理与验证的大模型，使用7B参数实现与671B DeepSeek-R1相当的性能。研究指出，形式化验证的普及受限于高门槛和人力成本，而大模型在语义理解和代码生成方面的优势有望加速验证流程。经过微调，模型在形式化任务上的表现显著提升，且对数学和推理任务也有积极影响。

🎯

关键要点

研究团队由香港科技大学等单位组成，开源了一系列形式化推理与验证的大模型。
使用7B参数的模型在性能上与671B的DeepSeek-R1相当。
形式化验证的普及受限于高门槛和人力成本，大模型的优势有望加速验证流程。
研究团队对形式化验证任务进行了分层拆解，细化为六个子任务。
通过数据收集，研究团队获得了14k数据用于训练微调，4k数据用于测试。
未经微调的通用指令大模型在从代码生成形式化证明上表现更好。
大模型在不同形式化语言上的表现差异明显，ACSL效果最好。
微调后，大模型在各类形式化任务上均有明显提升，性能几乎翻倍。
形式化数据微调对大模型数学、推理和编程任务的迁移能力表现良好，平均性能提升达1.37%至5.15%。

❓

延伸问答

7B级形式化推理与验证小模型的性能如何？

该模型在性能上与671B的DeepSeek-R1相当。

形式化验证的普及面临哪些挑战？

形式化验证的普及受限于高门槛和人力成本。

研究团队如何提升模型在形式化任务上的表现？

通过微调和数据收集，模型在各类形式化任务上表现显著提升。

大模型在不同形式化语言上的表现如何？

大模型在ACSL上的效果最好，其次是Dafny。

微调对大模型的能力提升有多大？

微调后，大模型在各类形式化任务上的性能几乎翻倍。

形式化数据微调对其他任务的迁移能力如何？

形式化数据微调后，模型在数学、推理和编程任务上的平均性能提升达1.37%至5.15%。

🏷️

继续阅读

GitHub如何计划重新赢回开发者
GitHub近期频繁出现故障，影响搜索和CI/CD管道。为应对增长，GitHub正在迁移至微软Azure云，重构系统以提升性能，目标是处理比目前多30倍的...
Core Data + Observation：从属性级响应到心智解放
Observation 框架提升了 SwiftUI 的状态响应能力，支持属性级观察，减少无效刷新。CDE 实现了对 Observation 的支持，使 N...
VSCode网页版安全翻车：点一个链接就能被偷光GitHub
VSCode网页版存在安全漏洞，攻击者可通过恶意链接窃取用户的GitHub访问令牌。该漏洞利用Webview的键盘事件模拟机制，允许恶意代码伪造用户操作，...
DeepSeek首轮500亿元融资细节曝光：估值4000亿，腾讯、宁德时代都来了
国内AI企业DeepSeek即将完成首轮融资，计划募资约500亿元，投资方包括腾讯和宁德时代。融资后估值预计达3500亿至4000亿元。创始人梁文锋将投入...
为什么官方版Muon比MuP版多出一个max(1, ⋅)？
在文章《Muon优化器指南：快速上手与关键细节》中，我们罗列了Muon的几个版本，它们的区别是学习率的矩阵形状相关的缩放因子不同，其中“官方版（Kelle...
Shotcut 26.6 Beta 版带来多项修复，并支持 OpenFX 和 VST2 插件
Shotcut 26.6 测试版发布，新增对 OpenFX 和 VST2 插件的支持，推出“安全模式”以防崩溃。用户可通过命令行启动实验模式，体验新滤镜 ...