当前位置: 首页 > news >正文

OpenAI 和 Paradigm 推出 EVMbench:AI 帮智能合约把关的新工具

区块链里锁着上千亿美元的资产,一次次黑客事件让大家看清了安全有多重要。就在最近,OpenAI 联合加密公司 Paradigm 发布了 EVMbench 这个基准测试,专门用来检查 AI 在智能合约安全上的真实水平。它收集了 40 份真实代码审计里的 120 个漏洞,很多来自 Tempo 区块链项目。

Ethereum 官网:https://ethereum.org/

EVMbench 把测试分成三个部分,简单直接。AI 先要找出代码里所有高严重程度的 bug,不能漏掉任何一个。接着,它得修改代码堵住漏洞,同时保证原来的功能还能正常跑,通过自动化测试来验证。最后一步最刺激:在本地模拟的以太坊环境里,AI 要试着把合约里的钱全抽走。

这些测试只挑那些真正能导致资金丢失的高影响漏洞,大部分来自公开的审计比赛。整个过程都在安全可重复的环境里完成,不会影响真实链上资产。

实际跑分出来,利用这个环节 AI 表现最亮眼。OpenAI 的 GPT-5.3-Codex 在利用任务上成功率达到 72.2%,比之前的 GPT-5 提升了一大截。Anthropic 的 Claude Opus 4.6 也拿到了 61.1%。相比之下,检测平均只有 40% 左右,很多时候 AI 扫不全漏洞。修复更难,GPT-5.3-Codex 只有 41.5%,因为既要堵漏洞又不能改坏原有逻辑。

给点提示后成绩会明显上升,比如 GPT-5.2 在中等提示下修复率能到 93.9%。这说明当前 AI 还离不开人的引导,但攻击能力已经很强了。

Paradigm 主要负责挑选漏洞和把关质量,Tempo 则提供了自己高吞吐支付链的审计数据。双方合作让这个基准更贴近真实场景。OpenAI 还在发布时强调,要把 AI 用在防御上。他们拿出了 1000 万美元的 API 积分做网络安全资助,还会继续扩展自己的 Aardvark 代码扫描代理。

EVMbench 现在已经开源,谁都可以基于它继续研究。很多人讨论说,AI 在攻击上进步快,但在全面检测上还有明显短板。这对开发者是个提醒,也给行业提供了跟踪 AI 安全能力的标准工具。

当然它也有局限,只算已知漏洞,而且只针对特定类型的利用方式。不过作为第一个专门针对 EVM 智能合约的 AI 安全基准,它已经把标杆立起来了。未来区块链安全会越来越依赖这类测试,开发者也能更放心地把代码交给 AI 检查。

整体看,EVMbench 把 AI 在高价值基础设施上的双刃剑特性摆在了明面上。攻守之间,差距还很明显,但至少现在有了量化的方式去衡量进步。

http://www.jsqmd.com/news/394967/

相关文章:

  • 题解:洛谷 P2341 [USACO03FALL / HAOI2006] 受欢迎的牛 G
  • 题解:洛谷 P3387 【模板】缩点
  • 信用卡逾期不用慌!实测口碑债务协商机构推荐,负债人安心上岸指南 - 代码非世界
  • 从0学习pwn【第三章】剖析ret2text32位,从函数调用到gdb调试(1)
  • 题解:洛谷 P3388 【模板】割点(割顶)
  • 题解:洛谷 P2860 [USACO06JAN] Redundant Paths G
  • 详细介绍:幽冥大陆(一百10)PHP打造Java的Jar安全——东方仙盟筑基期
  • ARM-中断管理
  • 题解:洛谷 P1656 炸铁路
  • 题解:洛谷 P2863 [USACO06JAN] The Cow Prom S
  • 告别“打字机”:Generative UI 如何重塑 AI 时代的前端交互?
  • DataFrame条件筛选:从入门到实战的数据清洗利器
  • 题解:洛谷 P2700 逐个击破
  • DataFrame数据修改:从基础操作到高效实践的完整指南
  • 深入浅出BlockingQueue(三)
  • 从0学习pwn【第二章】pwngdb调试
  • 题解:洛谷 P1967 [NOIP 2013 提高组] 货车运输
  • 负债上岸不踩坑!口碑好的贷款信用卡个人债务协商公司,渠道+服务全揭秘 - 代码非世界
  • 题解:洛谷 P1396 营救
  • 从0学习pwn【第一章】PWN学习环境搭建
  • 负债逾期别乱投医!2026正规债务协商规划机构排行榜,上岸党实测推荐 - 代码非世界
  • 题解:洛谷 P1194 买礼物
  • 避免提示设计踩雷的秘诀:提示工程架构师的用户流程测试风险评估
  • 免费白嫖可灵+阿里顶级AI,图片视频随便生!不限量
  • 大语言模型在AI原生应用领域的未来展望
  • 题解:洛谷 P3366 【模板】最小生成树
  • 大数据领域数据服务的人工智能算法优化
  • 【每日一题】LeetCode 696. 计数二进制子串
  • 信用卡逾期不用慌!全国专业贷款协商与逾期处理律所实测推荐,负债人上岸指南 - 代码非世界