当前位置: 首页 > news >正文

普林斯顿团队发布Goedel - Architect:低成本开源框架革新形式化定理证明

1. OpenAI 推翻数学猜想

数学领域近期受到 AI 产出的冲击。2026 年 5 月 20 日,OpenAI 宣布其内部推理模型成功推翻了数学家保罗・埃尔德什于 1946 年提出的「单位距离猜想」,这是困扰离散几何领域近 80 年的核心开放问题。菲尔兹奖得主蒂莫西・高尔斯表示,如果 AI 能证明单位距离猜想,对于数学界和科学界而言是具有划时代意义的里程碑事件,若这样高质量的数学论文由人类提交给顶级学术期刊《数学年刊》,他会毫不犹豫地推荐录用。

2. 数学进入「证明过剩时代」

同月,另一位菲尔兹奖得主陶哲轩在斯坦福大学发表《新数学工作流》演讲,宣布放弃实时跟进所有新证明,因为 AI 生成证明的速度远超人类消化能力。他认为数学正从「证明稀缺时代」进入「证明过剩时代」,真正的瓶颈已从「如何生成证明」转移到「如何验证与理解证明」。AI 以人类无法跟上的速度产出数学结论,数学面临前所未有的验证危机。

3. 形式化定理证明的解法与挑战

可能的解法是让 AI 来验证 AI 的证明,这是「形式化定理证明」的核心思想。Lean 是目前最主流的形式化证明语言之一,要求每一个逻辑步骤以机器可检验的方式写出,编译通过则证明的正确性由编译器担保,不依赖任何人的判断。但让 AI 直接生成可通过 Lean 编译器检验的完整证明,技术难度远高于生成自然语言的数学推导。

4. Goedel - Architect 智能体框架发布

近日,普林斯顿大学研究团队发布新论文,提出名为 Goedel - Architect 的智能体框架,核心模型是国内开源大模型 DeepSeek - V4 - Flash。

5. Goedel - Architect 的能力表现

在形式化定理证明领域的标准测试集 PutnamBench 上,此前最具竞争力的开源 pipeline 之一 Hilbert 由谷歌 Gemini 2.5 Pro 驱动,跑完 672 道题仅 API 调用费用就花掉约 17 万美元,而 Goedel - Architect 完成同样评测花费 294 美元,两者相差约 500 倍。且 Goedel - Architect 在 PutnamBench 上的通过率(75.6%)高于 Hilbert(70.0%),新方法更便宜且效果更好。

6. 团队背景与前期成果

Goedel - Architect 名字致敬了库尔特・哥德尔,普林斯顿和哥德尔有深厚历史渊源,研究团队来自普林斯顿大学语言与智能研究中心(PLI)。PLI 创始主任 Sanjeev Arora 是计算复杂性理论领域权威学者,2011 年获得 ACM 计算奖,长期探索「AI 能否成为超人类数学家」问题。共同领导团队的陈丹琦来自普林斯顿计算机系,谷歌学术引用量逾 9 万次,本科毕业于清华大学,博士就读于斯坦福,师从 Christopher Manning,早期和 Manning 共同开发了谷歌 SyntaxNet 底层的依存句法解析算法,进入普林斯顿后聚焦语言模型相关研究。团队此前已发布两代 Goedel - Prover 用于形式化定理证明,在 MiniF2F 基准上从最初的 60% 提升至 90%,Goedel - Architect 是最新探索。

7. Goedel - Architect 的「蓝图」概念

Goedel - Architect 的关键点在于「蓝图」概念。现有许多系统采用「递归分解」方式,遇到难题拆成更小的子目标,形成树状结构,但易陷入低效循环。Goedel - Architect 在证明前先生成一张有向无环图的「蓝图」,包含通向最终定理所需的所有定义和引理及它们之间的依赖关系,是整个证明策略的全局视图。有了蓝图,系统将图中未证明的节点分发给 Lean 证明器并行处理,证明器只看到负责的引理和其声明依赖的上游结果,不受其他信息干扰。一轮并行证明后,节点有成功证明(绿色)、失败(蓝色)、反向证明(红色)三种情况。

8. 蓝图精炼机制

当引理节点无法被证明时,系统要求证明器写一份结构化的「事后分析报告」,包含对失败原因的诊断、尝试过的策略及其卡住的位置、建议的修复方案。系统设计了两类失败模式的处理路径。第一类是「命题有误」,如处理 Putnam 1989 年的题时,蓝图提出的引理被证明错误,系统记录诊断并在下一轮迭代中修改节点陈述,修正传播给依赖该引理的节点。第二类是「证明太难」,如 Putnam 1985 年的题目,证明器建议按情形分类讨论,下一轮迭代接受分解,问题得解。已成功证明的节点在迭代中保留,整个过程像逐步完成的拼图。

9. Goedel - Architect 的测试表现

团队在五个基准上测试了 Goedel - Architect。在 MiniF2F - test 测试集上,Goedel - Architect 在 pass@1 下解决了 242 道题(99.2%),与此前最强的开源系统持平,剩余两道 IMO 难题借助自然语言证明辅助后也解决,成为首个刷完 244 道题的系统。在 PutnamBench 上,pass@1 通过率为 75.6%,超过 Hilbert,借助自然语言辅助后通过率提升至 88.8%,总花费不到 1000 美元。在更新的竞赛题目上,解决了 IMO 2025 的 4/6 道题,Putnam 2025 的 11/12 道题,USAMO 2026 的 3/6 道题。

10. 自然语言辅助机制

Goedel - Architect 有可选的辅助机制,生成初始蓝图时可提供自然语言的证明思路作为结构参考,由参数更大的模型(如 Gemini 3.1 Pro)生成,只起「脚手架」作用,具体形式化实现由 Goedel - Architect 完成。对于大多数题目,辅助非必需,但对于具有「非局部结构」的难题,自然语言提供的结构指引是决定性的,团队对照实验显示,不使用辅助无一成功,加入辅助后全部解决。

11. 对比实验结论

论文的对比实验核心结论是,提升来自 pipeline 设计,而非仅更好的模型。将 Hilbert 移植到相同的 DeepSeek - V4 - Flash 骨干上运行,在 MiniF2F 上只能达到 84.4%,而 Goedel - Architect 达到 99.2%。在 PutnamBench 的 200 题子集上,工具增强的单智能体方式以相同骨干达到 54.5%,而 Goedel - Architect 达到 76.0%,且每道题消耗的 token 数更少。递归分解策略易在死胡同循环,全局蓝图策略可让系统调整策略。

12. 技术意义与价值

这项工作的技术意义清晰,Goedel - Architect 是成本极低的开源框架,在形式化定理证明的核心基准上达到了此前只有昂贵闭源系统才能触及的水平。形式化证明系统提供了让 AI 数学输出变得「可信」的基础设施,Goedel - Architect 降低了这套基础设施的访问门槛约两个数量级。

http://www.jsqmd.com/news/969519/

相关文章:

  • CSDN AI数字营销免费试用期到底几天?3大关键限制+2个自动续费陷阱,90%新人不知道
  • 2026年6月7日博客精选
  • ADC精度与分辨率深度解析:从概念到选型实战指南
  • 前端和测试岗想转AI,你的工程经验其实是张好牌
  • Linux内核时间管理与延时机制:从jiffies到高精度定时器实战
  • I2C软件模拟驱动开发:从协议原理到稳定调试的实战指南
  • Android 13应用语言独立设置:打破系统限制的技术实现方案
  • 终极抖音下载指南:如何免费批量保存视频、图集和直播回放
  • ArchivePasswordTestTool:基于7zip引擎的企业级加密压缩包密码恢复解决方案架构与实践
  • 现代 Web 高吞吐状态流转:基于发布订阅(Pub/Sub)模式与 Proxy 数据双向绑定手写高性能状态管理器
  • 2026年阿里云OpenClaw/Hermes Agent配置Token Plan安装步骤全解
  • DataCleaner 5.1.5 全功能开源数据清洗套件:可视化操作+命令行支持+多源接入+脚本扩展
  • LabVIEW嵌入式开发:从图形化编程到实时控制与FPGA硬件实现
  • 终极指南:如何使用TegraRcmGUI图形化工具轻松完成Switch RCM注入
  • WinForm拖拽即用的DataGridView分页控件(带源码和完整示例)
  • 如何快速掌握Jupyter AI:新手到专家的完整实战指南
  • 2026年深圳小程序商城制作哪家好
  • ComfyUI IPAdapter终极指南:3分钟掌握AI图像风格迁移
  • 2026年国内气凝胶毡/纳米气凝胶毡/二氧化硅气凝胶毡厂家实力排行及实测对比 推荐河北贺高保温材料有限公司 - 奔跑123
  • 分子动力学模拟新手必看:3分钟掌握Packmol初始构型构建
  • JavaWeb 全套教程 MVC 模式 93
  • 小白也能听懂 Transformer 架构原理:从 Attention 到大模型的入门指南
  • Redis未授权访问到底危险在哪?一文看懂攻击原理
  • Ubuntu 18.04/20.04离线编译PostgreSQL 10.6源码包(含完整构建脚本与依赖宏)
  • 从Sensor横纹到DDR误码:聊聊电源质量如何‘搞砸’你的硬件系统
  • 终极数据恢复指南:如何使用TestDisk和PhotoRec免费找回丢失的文件
  • 星穹铁道抽卡记录导出工具:三分钟掌握专业数据分析
  • MAX II CPLD UFM模块并行接口读写实战:从原理到工程实现
  • 计算机专业学生选AI方向,先分清应用开发和算法研究的差距
  • Tiny11Builder:如何为开发环境打造轻量级Windows 11镜像?