OpenAI ·

介绍EVMbench

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

EVMbench是一个评估AI代理在智能合约安全性方面能力的基准工具，涵盖117个高严重性漏洞，旨在提高智能合约的安全性。随着AI技术的发展，开发者应将AI审计纳入工作流程，以应对网络安全风险。

🎯

🔎

随着智能合约在加密资产中扮演越来越重要的角色，AI审计的必要性愈发凸显。EVMbench的推出不仅为开发者提供了评估AI代理能力的工具，也提醒他们在开发流程中整合AI审计，以应对潜在的网络安全风险。

尽管EVMbench涵盖了117个高严重性漏洞，但其评估结果并不能完全反映真实世界中的智能合约安全复杂性。开发者在依赖这些评估时，应注意到实际应用中可能存在的更复杂的漏洞和攻击方式。

EVMbench揭示了不同AI模型在各个任务中的表现差异，尤其是在利用模式下表现最佳。这表明，尽管AI在漏洞检测和修补方面仍有不足，但在攻击模拟中却能展现出较强的能力，开发者应对此保持关注。

❓

EVMbench是一个评估AI代理在智能合约安全性方面能力的基准工具，涵盖117个高严重性漏洞。

EVMbench通过检测、修补和利用三种模式评估AI代理的能力，分别测试其在智能合约漏洞方面的表现。

在利用模式中，GPT-5.3-Codex的得分为71.0%，显著高于之前的模型。

EVMbench未能完全代表真实世界智能合约安全的复杂性，且其评分系统在检测模式中存在不完善之处。

EVMbench帮助开发者和安全研究人员跟踪新兴的网络安全风险，并强调将AI辅助审计纳入工作流程的重要性。

EVMbench发布的任务、工具和评估框架旨在支持对新兴AI网络能力的测量和管理的持续研究。

🏷️