当前位置：首页 > news >正文

AI开始重写自己的算法：谷歌DeepMind让大模型击败了博弈论专家

news 2026/7/15 12:34:34

文章目录

- 前言
- 博弈论里的"华山论剑"
- AlphaEvolve：让AI自己"炼丹"
- - 1. VAD-CFR：会看"脸色"的遗憾计算
  - 2. SHOR-PSRO：自动调节的"养蛊场"
- 为什么这事意义重大？
- 博弈论专家怎么看？
- 下一步是什么？

前言

想象一下这个场景：你正在打德州扑克，手里捏着两张底牌，对面坐着一个数学系毕业的博弈论专家。他脑子里装着几十年来人类积累的所有概率计算、心理博弈和均衡策略。但现在，他的对手不是人，而是一个由AI自己"想"出来的算法——这个算法不是人类程序员写的，而是大模型在看了几十万行代码后，自己进化出来的。

结果怎么样？这个AI算法在11个游戏中的10个里，把人类专家设计的顶级算法按在地上摩擦。

这不是科幻小说，这是Google DeepMind在2026年初刚发布的研究成果。他们搞了个叫AlphaEvolve的系统，让Gemini 2.5 Pro这个顶尖大模型去"重写"博弈论里的经典算法，结果发现：AI不仅学会了人类教的东西，还发现了人类几十年都没想出来的新套路。

博弈论里的"华山论剑"

先给不太熟悉这块的朋友们补补课。

在AI研究里，博弈论可不是简单的下棋打牌。它研究的是在多个人（或智能体）互相竞争、信息不完全的情况下，怎么做出最优决策。这在自动驾驶、金融交易、网络安全甚至军事战略里都有广泛应用。

比如德州扑克，你看不到对手的牌，只能根据下注行为推测。这种不完美信息博弈比围棋难多了——围棋是明牌，大家都能看到棋盘；扑克是暗牌，你得靠猜。

几十年来，人类专家发明了两个大杀器来处理这类问题：

第一个是CFR（反事实遗憾最小化）。你可以把它理解为"事后诸葛亮学习法"。每打完一局，算法会回头想想："刚才如果换个动作，是不是能赚更多？"然后把这种"后悔值"积累起来，慢慢调整策略。变体包括CFR+、DCFR这些，都是人工一点点调出来的。

第二个是PSRO（策略空间响应预言机）。这招更像"养蛊"——先养一堆不同的策略，让它们互相打架，最后选出最能打的那个组合。

这两个算法家族里的各种变体，比如PCFR+、DPCFR+、AlphaRank这些，都是人类研究者靠数学直觉和反复试错，花了十几年才打磨出来的。每个参数背后都有一堆论文支撑。

DeepMind说：“行，让AI自己试试。”

AlphaEvolve：让AI自己"炼丹"

AlphaEvolve不是个简单的代码生成工具。它的核心逻辑是"进化式代码生成"。

系统给Gemini 2.5 Pro一个基础框架，然后让它去变异、改写核心逻辑。改完后的代码拿去跑游戏，跑出来的结果好的就保留，不好的就淘汰，然后在此基础上继续变异。就像一个不断进化的生物种群。

关键是，Gemini不只是调参数，它改的是算法的核心逻辑——比如怎么计算遗憾值、怎么做加权平均、什么时候该探索什么时候该 exploitation。

经过几千代的进化，AlphaEvolve在两个领域都发现了新算法：

1. VAD-CFR：会看"脸色"的遗憾计算

第一个发现叫VAD-CFR（Volatility-Adaptive Discounted CFR，波动率自适应折扣CFR）。

传统CFR算法有个毛病：它对历史数据是一视同仁的。但VAD-CFR搞了个很骚的操作——它会观察最近局势的"波动率"。如果发现最近几轮局势变化很大（比如对手突然变得很激进），它就加快"遗忘"旧数据的速度；如果局势稳定，就多记住一些历史。

这听起来很符合直觉对吧？但人类专家之前设计的DCFR、PCFR+都没这么干。它们用的是固定的折扣因子，就像不管天气怎么样都穿一样厚的衣服。

更绝的是，VAD-CFR还搞了个"硬热身"机制：前500轮完全不平均策略，纯积累遗憾值，500轮后才突然开始平均。这个500的数字不是人给的，是AI自己进化出来的——关键是，测试 horizon 正好是1000轮，AI好像自己悟到了"一半的时候开始正合适"。

还有一个不对称增强：对正的即时遗憾值乘以1.1的系数。就这么个小小的不对称，让算法对"好事"更敏感。

结果如何？在11个标准测试游戏中，VAD-CFR在10个游戏里达到了SOTA（state-of-the-art）水平，包括德州扑克的变种Kuhn Poker、Leduc Poker，以及Liar’s Dice这些经典不完美信息博弈。

唯一输的那场是4人Kuhn Poker——但这也正常，人多的博弈本来就更复杂。

2. SHOR-PSRO：自动调节的"养蛊场"

第二个发现是SHOR-PSRO（Smoothed Hybrid Optimistic Regret PSRO），针对的是PSRO这个"养蛊"框架。

传统PSRO最大的问题是怎么选meta-strategy——即从现有的策略池子里怎么组合出一个混合策略。人类设计了好几种方法：均匀随机选（Uniform）、纳什均衡（Nash）、AlphaRank等等，但都得手动调。

SHOR-PSRO搞了个混合求解器：它把"乐观遗憾匹配"（ORM）和"平滑最佳纯策略"（Softmax）线性混合在一起。用个参数λ控制两者的比例。

但最妙的是动态退火：在训练初期，λ设置得偏向Softmax（0.3），这时候算法更贪婪，专注于 exploitation；随着训练进行，λ慢慢降到0.05，转向ORM，更注重探索均衡。同时多样性奖励（diversity bonus）也从0.05降到0.001，温度参数从0.5降到0.01。

这相当于AI自己学会了什么时候该探索、什么时候该收割——而且整个过程是自动的，不需要人类去设定"第几步该转策略"。

测试结果显示，SHOR-PSRO在11个游戏中的8个里击败了人类设计的基准算法。

为什么这事意义重大？

可能有些朋友会说：“这不就是自动调参吗？有什么了不起的？”

不，这完全是两码事。

首先，AI发现的是人类没想到的结构。
比如VAD-CFR里的那个500轮硬热身，或者是SHOR-PSRO里训练时和评估时用完全不同的参数配置（训练时λ=0.3→0.05，评估时固定λ=0.01），这些都不是人类专家常规会尝试的设计。

MIT Technology Review的报道里有个评价很到位：AlphaEvolve找到的许多解决方案"非直观到设计出来"（non-intuitive by design）。

其次，这是AI第一次真正进入"算法设计"的核心领地。

以前我们说AI能写代码，指的是它能把人类的需求翻译成代码实现。但AlphaEvolve不一样——它是在发现新的算法范式，是在做研究级的工作。

DeepMind自己也很兴奋。他们在论文里说，这是"在递归自我改进的语境下，首次同时实现了算法本身和生成算法的LLM的改进"。也就是说，不仅算法变强了，生成算法的那个AI也变强了。

最后，这事儿已经在产生实际价值了。

DeepMind用AlphaEvolve去优化Google数据中心的调度算法，结果回收了全球0.7%的计算资源。按Google的规模，这相当于省下了无数台服务器。

它还加速了Gemini本身的训练——通过优化一个特定的矩阵运算，把训练时间缩短了1%。AI在帮Google造更好的AI，这闭环了。

博弈论专家怎么看？

这事儿对博弈论学术界冲击挺大的。

传统上，算法设计是个需要深厚数学直觉的工作。你得懂凸优化、懂不动点定理、懂泛函分析，才能设计出收敛快又稳定的算法。

但现在，AI在11个测试用例里的10个都击败了人类。而且它不是靠蛮力，而是靠发现人类漏掉的结构。

有个细节很有意思：VAD-CFR里的波动率自适应机制，其实和金融领域的波动率聚类（volatility clustering）很像。但做CFR的数学家和做量化交易的金融工程师，之前可能没想到把这俩结合起来。AI想到了，因为它只是纯粹地从效果出发，没有学科壁垒。

当然，也有局限。AlphaEvolve只能解决能被自动评估的问题——就是你说好不好，得有个客观标准（比如exploitability数值）。如果得靠人眼看美不美、有没有创意，它就不行了。

而且就像Warwick大学的数学家Jakob Moosbauer说的，AlphaEvolve虽然能找到好算法，但给不出理论解释——它不知道为什么这个算法好，只是实验证明它好。这对数学家来说有点难受，因为他们既想要结果，也想要理解。

下一步是什么？

DeepMind这篇论文（arXiv:2602.16928）其实释放了一个很强的信号：大模型+进化算法，可能是未来算法发现的主流范式。

以前我们用神经网络下棋、打游戏，是在策略层面超越人类。现在AlphaEvolve是在元策略层面超越人类——它设计的学习算法比人类设计的更好。

这让我想起2017年AlphaZero自己悟出国际象棋开局的场景。当时人类几百年来积累的开局理论，被AI几天就重新发现了，而且发现很多传统认知是错的。

现在历史在算法设计领域重演。只不过这次，AI不仅重新发现了，还发明了一些人类从来没见过的新机制。

也许再过几年，我们大学算法课上讲的CFR，就不再是Tammelin 2014年提出的CFR+，而是VAD-CFR；PSRO的meta-solver标准做法，也会变成SHOR-PSRO的混合退火策略。

毕竟，在11局比赛里赢10局，这不是运气，这是实力。

朋友们，下次当你听到"AI只会模仿人类"的时候，记得今天这篇文章。有些东西，AI已经开始教人类怎么做了。

目前国内还是很缺AI人才的，希望更多人能真正加入到AI行业，共同促进行业进步，增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow，教程通俗易懂，高中生都能看懂，还有各种段子风趣幽默，从深度学习基础原理到各领域实战应用都有讲解，我22年的AI积累全在里面了。注意，教程仅限真正想入门AI的朋友，否则看看零散的博文就够了。

查看全文

http://www.jsqmd.com/news/598039/