小红花·文摘

Mistral的Leanstral想要消除人类参与的代码检查，但这是否只是空中楼阁？

The New Stack ·

陶哲轩最新演讲：AI 不是来抢数学家蛋糕的，是来把蛋糕做大的

宝玉的分享 ·

大语言模型(LLMs)应优先考虑强类型编程语言，以提高代码生成的可靠性。当前的弱类型语言如JavaScript可能导致不确定性，影响AI生成代码的准确性。形式验证和专为AI设计的新语言可能是未来的解决方案，以确保代码的正确性和可靠性。

大语言模型(LLMs)应该用什么语言编程？

程序师 ·

形式验证及我为何爱上它

DEV Community ·

正式语言（如模型检查和形式验证）对我来说是新知识，我希望在此进行简要回顾，以便快速参考。

内存模型与形式化

shrik3 ·

本文提出了FormalMATH，一个包含5560个经过形式验证的数学问题的大型基准，旨在提升人工智能的形式数学推理能力。研究通过人机协作的自动形式化流程，降低了专业标注成本，并揭示了当前语言模型在形式证明中的局限性，为未来研究指明了方向。

FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models

BriefGPT - AI 论文速递 ·

Rust 的不安全特性并不影响其内存安全性。尽管实现中可能包含不安全操作，只要遵循正确的接口和语义，Rust 仍能保持安全。通过形式验证和局部分析，Rust 有效管理不安全代码，确保扩展不会引发问题。

“unsafe”是否会破坏 Rust 的保证？

程序师 ·

VeriPlan系统通过形式验证技术提升了大型语言模型在用户规划中的可靠性和灵活性，解决了传统自动化规划中用户信任不足的问题，显著改善了用户对模型的感知质量和满意度。

VeriPlan: Integrating Formal Verification and Large Language Models into End-User Planning

BriefGPT - AI 论文速递 ·

本研究提出了一种基于“这里与那里”逻辑的替代语义，以解决回答集编程中的形式验证挑战，促进逻辑程序的模块化理解，并利用自动定理证明工具验证程序特性，旨在简化ASP验证。

将回答集编程与多排序逻辑联系起来进行形式验证

BriefGPT - AI 论文速递 ·

该研究提出了工具Marmaragan，利用大型语言模型为程序生成SPARK注释，以实现代码形式验证。实验结果显示其能正确生成50.7%的注释，为未来结合LLM与形式验证奠定基础。

在软件验证背景下验证LLM生成的代码与Ada/SPARK

BriefGPT - AI 论文速递 ·

本研究提出了一种自动从系统行为生成规格的方法，解决了形式验证中手动制定规格的挑战与易错性，并比较了不同的LTL规格挖掘技术，对形式方法实践者具有重要指导意义。

What is Formal Verification Without Specifications? A Review on Mining LTL Specifications

BriefGPT - AI 论文速递 ·

本研究探讨了变换器在自动化形式验证中的应用，通过将研究论文中的形式化证明转化为可验证代码，降低了形式验证的门槛，提高了代码的可靠性与安全性。

From Scientific Text to Verifiable Code: Automating the Process Using Transformers

BriefGPT - AI 论文速递 ·

公告：2025年FOSDEM大会Ada开发者房间

DEV Community ·

本文探讨了形式验证中对专家知识的需求，并提出了Rango工具，该工具能够自动识别相关前提和相似证明，从而优化合成过程。Rango显著提高了证明的有效性，在多个开源项目中成功合成了32.0%的定理，较之前工具提升了29%。

Rango: An Automated Software Verification Tool with Adaptive Retrieval Enhancement

BriefGPT - AI 论文速递 ·

本研究提出了AlphaVerus框架，旨在解决自动化代码生成中的形式验证不足问题。通过自我改进的翻译和验证器反馈，AlphaVerus显著提高了生成代码的正确性，并展示了在HumanEval和MBPP等问题上的潜力。

AlphaVerus: Bootstrapping Formally Verified Code Generation through Self-Improving Translation and Tree Refinement

BriefGPT - AI 论文速递 ·

Cloudflare通过形式验证确保其权威DNS配置的正确性，避免冲突。Topaz系统验证DNS查询的IP地址选择逻辑，确保不同团队的程序不冲突。每当程序更改时，都会通过模型检查器检测潜在错误，从而提高互联网的可靠性，鼓励其他网络运营商采用形式方法。

我们如何通过形式验证防止权威DNS配置中的冲突

The Cloudflare Blog ·

本文探讨了神经网络的形式验证方法，包括针对分段线性激活函数的前向神经网络验证、二值化神经网络的硬件验证、深度学习模型的统一验证框架，以及新型符号推理框架的提出。研究强调了机器学习在交通运输领域的应用及其认证需求，并提出了改进数字表示方法和算法以提高硬件效率。

神经模型检查

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）在代码生成中的安全性问题，提出了多种方法以减少生成脆弱代码的风险。研究表明，结合脆弱性约束解码和形式验证工具，可以有效提高代码的安全性和正确性，降低安全漏洞的传播。

通过自我演化实现Rust代码的自动证明生成

BriefGPT - AI 论文速递 ·

本文介绍了多个数学和形式验证的基准测试，如ProofNet、miniF2F和DafnyBench，旨在推动自动形式化和定理证明的研究。这些基准测试涵盖数学推理、自然语言处理和神经网络验证等领域，评估不同模型的性能和适应性，强调了改进的必要性和未来研究的潜力。

PutnamBench: 在 Putnam 数学竞赛上评估神经定理证明器

BriefGPT - AI 论文速递 ·

本文探讨了基于图的解释和答案集编程（ASP）的证明方法，涉及程序重写、逻辑程序更新、形式验证及其在心理学中的应用。研究表明，新编码方法在复杂性反映上表现良好，并优化了推理过程。

逻辑程序在答案集语义下的非正式语义变体的历史回顾：GL'88、GL'91、GK'14、D-V'12

BriefGPT - AI 论文速递 ·