当前位置: 首页 > news >正文

AI开始重写自己的算法:谷歌DeepMind让大模型击败了博弈论专家

文章目录

    • 前言
    • 博弈论里的"华山论剑"
    • AlphaEvolve:让AI自己"炼丹"
      • 1. VAD-CFR:会看"脸色"的遗憾计算
      • 2. SHOR-PSRO:自动调节的"养蛊场"
    • 为什么这事意义重大?
    • 博弈论专家怎么看?
    • 下一步是什么?

前言

想象一下这个场景:你正在打德州扑克,手里捏着两张底牌,对面坐着一个数学系毕业的博弈论专家。他脑子里装着几十年来人类积累的所有概率计算、心理博弈和均衡策略。但现在,他的对手不是人,而是一个由AI自己"想"出来的算法——这个算法不是人类程序员写的,而是大模型在看了几十万行代码后,自己进化出来的。

结果怎么样?这个AI算法在11个游戏中的10个里,把人类专家设计的顶级算法按在地上摩擦。

这不是科幻小说,这是Google DeepMind在2026年初刚发布的研究成果。他们搞了个叫AlphaEvolve的系统,让Gemini 2.5 Pro这个顶尖大模型去"重写"博弈论里的经典算法,结果发现:AI不仅学会了人类教的东西,还发现了人类几十年都没想出来的新套路。

博弈论里的"华山论剑"

先给不太熟悉这块的朋友们补补课。

在AI研究里,博弈论可不是简单的下棋打牌。它研究的是在多个人(或智能体)互相竞争、信息不完全的情况下,怎么做出最优决策。这在自动驾驶、金融交易、网络安全甚至军事战略里都有广泛应用。

比如德州扑克,你看不到对手的牌,只能根据下注行为推测。这种不完美信息博弈比围棋难多了——围棋是明牌,大家都能看到棋盘;扑克是暗牌,你得靠猜。

几十年来,人类专家发明了两个大杀器来处理这类问题:

第一个是CFR(反事实遗憾最小化)。你可以把它理解为"事后诸葛亮学习法"。每打完一局,算法会回头想想:"刚才如果换个动作,是不是能赚更多?"然后把这种"后悔值"积累起来,慢慢调整策略。变体包括CFR+、DCFR这些,都是人工一点点调出来的。

第二个是PSRO(策略空间响应预言机)。这招更像"养蛊"——先养一堆不同的策略,让它们互相打架,最后选出最能打的那个组合。

这两个算法家族里的各种变体,比如PCFR+、DPCFR+、AlphaRank这些,都是人类研究者靠数学直觉和反复试错,花了十几年才打磨出来的。每个参数背后都有一堆论文支撑。

DeepMind说:“行,让AI自己试试。”

AlphaEvolve:让AI自己"炼丹"

AlphaEvolve不是个简单的代码生成工具。它的核心逻辑是"进化式代码生成"。

系统给Gemini 2.5 Pro一个基础框架,然后让它去变异、改写核心逻辑。改完后的代码拿去跑游戏,跑出来的结果好的就保留,不好的就淘汰,然后在此基础上继续变异。就像一个不断进化的生物种群。

关键是,Gemini不只是调参数,它改的是算法的核心逻辑——比如怎么计算遗憾值、怎么做加权平均、什么时候该探索什么时候该 exploitation。

经过几千代的进化,AlphaEvolve在两个领域都发现了新算法:

1. VAD-CFR:会看"脸色"的遗憾计算

第一个发现叫VAD-CFR(Volatility-Adaptive Discounted CFR,波动率自适应折扣CFR)。

传统CFR算法有个毛病:它对历史数据是一视同仁的。但VAD-CFR搞了个很骚的操作——它会观察最近局势的"波动率"。如果发现最近几轮局势变化很大(比如对手突然变得很激进),它就加快"遗忘"旧数据的速度;如果局势稳定,就多记住一些历史。

这听起来很符合直觉对吧?但人类专家之前设计的DCFR、PCFR+都没这么干。它们用的是固定的折扣因子,就像不管天气怎么样都穿一样厚的衣服。

更绝的是,VAD-CFR还搞了个"硬热身"机制:前500轮完全不平均策略,纯积累遗憾值,500轮后才突然开始平均。这个500的数字不是人给的,是AI自己进化出来的——关键是,测试 horizon 正好是1000轮,AI好像自己悟到了"一半的时候开始正合适"。

还有一个不对称增强:对正的即时遗憾值乘以1.1的系数。就这么个小小的不对称,让算法对"好事"更敏感。

结果如何?在11个标准测试游戏中,VAD-CFR在10个游戏里达到了SOTA(state-of-the-art)水平,包括德州扑克的变种Kuhn Poker、Leduc Poker,以及Liar’s Dice这些经典不完美信息博弈。

唯一输的那场是4人Kuhn Poker——但这也正常,人多的博弈本来就更复杂。

2. SHOR-PSRO:自动调节的"养蛊场"

第二个发现是SHOR-PSRO(Smoothed Hybrid Optimistic Regret PSRO),针对的是PSRO这个"养蛊"框架。

传统PSRO最大的问题是怎么选meta-strategy——即从现有的策略池子里怎么组合出一个混合策略。人类设计了好几种方法:均匀随机选(Uniform)、纳什均衡(Nash)、AlphaRank等等,但都得手动调。

SHOR-PSRO搞了个混合求解器:它把"乐观遗憾匹配"(ORM)和"平滑最佳纯策略"(Softmax)线性混合在一起。用个参数λ控制两者的比例。

但最妙的是动态退火:在训练初期,λ设置得偏向Softmax(0.3),这时候算法更贪婪,专注于 exploitation;随着训练进行,λ慢慢降到0.05,转向ORM,更注重探索均衡。同时多样性奖励(diversity bonus)也从0.05降到0.001,温度参数从0.5降到0.01。

这相当于AI自己学会了什么时候该探索、什么时候该收割——而且整个过程是自动的,不需要人类去设定"第几步该转策略"。

测试结果显示,SHOR-PSRO在11个游戏中的8个里击败了人类设计的基准算法。

为什么这事意义重大?

可能有些朋友会说:“这不就是自动调参吗?有什么了不起的?”

不,这完全是两码事。

首先,AI发现的是人类没想到的结构。
比如VAD-CFR里的那个500轮硬热身,或者是SHOR-PSRO里训练时和评估时用完全不同的参数配置(训练时λ=0.3→0.05,评估时固定λ=0.01),这些都不是人类专家常规会尝试的设计。

MIT Technology Review的报道里有个评价很到位:AlphaEvolve找到的许多解决方案"非直观到设计出来"(non-intuitive by design)。

其次,这是AI第一次真正进入"算法设计"的核心领地。

以前我们说AI能写代码,指的是它能把人类的需求翻译成代码实现。但AlphaEvolve不一样——它是在发现新的算法范式,是在做研究级的工作。

DeepMind自己也很兴奋。他们在论文里说,这是"在递归自我改进的语境下,首次同时实现了算法本身和生成算法的LLM的改进"。也就是说,不仅算法变强了,生成算法的那个AI也变强了。

最后,这事儿已经在产生实际价值了。

DeepMind用AlphaEvolve去优化Google数据中心的调度算法,结果回收了全球0.7%的计算资源。按Google的规模,这相当于省下了无数台服务器。

它还加速了Gemini本身的训练——通过优化一个特定的矩阵运算,把训练时间缩短了1%。AI在帮Google造更好的AI,这闭环了。

博弈论专家怎么看?

这事儿对博弈论学术界冲击挺大的。

传统上,算法设计是个需要深厚数学直觉的工作。你得懂凸优化、懂不动点定理、懂泛函分析,才能设计出收敛快又稳定的算法。

但现在,AI在11个测试用例里的10个都击败了人类。而且它不是靠蛮力,而是靠发现人类漏掉的结构。

有个细节很有意思:VAD-CFR里的波动率自适应机制,其实和金融领域的波动率聚类(volatility clustering)很像。但做CFR的数学家和做量化交易的金融工程师,之前可能没想到把这俩结合起来。AI想到了,因为它只是纯粹地从效果出发,没有学科壁垒。

当然,也有局限。AlphaEvolve只能解决能被自动评估的问题——就是你说好不好,得有个客观标准(比如exploitability数值)。如果得靠人眼看美不美、有没有创意,它就不行了。

而且就像Warwick大学的数学家Jakob Moosbauer说的,AlphaEvolve虽然能找到好算法,但给不出理论解释——它不知道为什么这个算法好,只是实验证明它好。这对数学家来说有点难受,因为他们既想要结果,也想要理解。

下一步是什么?

DeepMind这篇论文(arXiv:2602.16928)其实释放了一个很强的信号:大模型+进化算法,可能是未来算法发现的主流范式。

以前我们用神经网络下棋、打游戏,是在策略层面超越人类。现在AlphaEvolve是在元策略层面超越人类——它设计的学习算法比人类设计的更好。

这让我想起2017年AlphaZero自己悟出国际象棋开局的场景。当时人类几百年来积累的开局理论,被AI几天就重新发现了,而且发现很多传统认知是错的。

现在历史在算法设计领域重演。只不过这次,AI不仅重新发现了,还发明了一些人类从来没见过的新机制。

也许再过几年,我们大学算法课上讲的CFR,就不再是Tammelin 2014年提出的CFR+,而是VAD-CFR;PSRO的meta-solver标准做法,也会变成SHOR-PSRO的混合退火策略。

毕竟,在11局比赛里赢10局,这不是运气,这是实力。

朋友们,下次当你听到"AI只会模仿人类"的时候,记得今天这篇文章。有些东西,AI已经开始教人类怎么做了。


目前国内还是很缺AI人才的,希望更多人能真正加入到AI行业,共同促进行业进步,增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow,教程通俗易懂,高中生都能看懂,还有各种段子风趣幽默,从深度学习基础原理到各领域实战应用都有讲解,我22年的AI积累全在里面了。注意,教程仅限真正想入门AI的朋友,否则看看零散的博文就够了。

http://www.jsqmd.com/news/598039/

相关文章:

  • 看美国通用集团这些年的起伏
  • 多场景验证:MT5文本增强在电商SKU描述、APP弹窗文案、政务通知改写中的表现
  • 百度网盘直链解析技术解构:原理、实现与生态演进深度剖析
  • TQVaultAE:重新定义《泰坦之旅》装备管理体验的终极工具
  • 手柄映射的艺术:RetroArch输入系统深度解析与实战指南
  • GPT-6倒计时,核弹级“土豆“即将引爆!200万token+永久记忆
  • go get 与 go install的区别
  • Maltab Simulink常用模块位置
  • CTE在SSAS中的应用与限制
  • 三星固件管理的终极跨平台解决方案:Bifrost技术深度解析与实践指南
  • 航天追箭必看:文昌住宿选择的核心逻辑 - 速递信息
  • 突破魔兽争霸3帧率限制:WarcraftHelper实现180fps流畅游戏体验全攻略
  • UE4-(UI)第六十九课Canvas Panel与Size Box的黄金搭档
  • 失业重生之我用龙虾打比赛
  • Vue3 + TypeScript 核心开发技巧:从响应式到组件通信
  • Topit:5倍提升多任务效率的macOS窗口置顶神器
  • 告别重复编码:用快马ai生成arduino高效开发通用模块库
  • 技术赋能旧设备:OpenCore Legacy Patcher让Mac重获新生
  • 黑龙江省科技厅:2025年科技创新政策汇编 2026
  • 东莞盛世源机电设备有限公司:莞城街道发电机专业维修发电机销售服务商 - LYL仔仔
  • 解放双手!U校园智能刷课工具全攻略:2分钟搞定网课必修题
  • 从1.63到1.136:CesiumJS 三年版本变迁史,看WebGL三维引擎的演进与最佳实践
  • MongoDB EF Core 提供程序中的可查询加密和向量搜索
  • AutoCAD二次开发避坑指南:手把手教你选对.NET、VS和CAD版本(2025版)
  • 每日一问-20260405--戴尔显示器型号命名速查表
  • 生态廊道构建实战指南(1)—Linkage Mapper与Circuitscape环境部署详解
  • 3分钟让邮件排版变轻松:Markdown Here如何帮你告别格式烦恼
  • 3个维度解决暗黑3操作痛点:D3KeyHelper智能操作助手全面解析
  • Win10-11系统日志深度解析:追踪ShellExperienceHost触发的DCOM权限警告与音频服务关联
  • Higress AI 网关 MCP Server 实战:Docker 环境下的 REST API 集成指南