EoM:用哈耶克的市场经济理论开发智能体,效果惊人
一句话总结
通过拍卖、交易和基于财富的选择,无需中央控制,就能诱导出了专业化和协调机制。这暗示了一条完全与主流不同的路径 —— 与其费力设计单个智能体或协调机制,不如设计一套激励结构,让协调、分工、合作在其中自动浮现
- 论文标题:Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions
- 论文地址:https://arxiv.org/pdf/2606.02859
- 作者背景:哈佛大学、麻省理工、Kempner Institute、2077AI
- 代码地址:https://github.com/zhentingqi/EoM
一、动机
构建复杂 AI 应用时,分工协作已经成为默认思路:搭一个负责检索的智能体、一个做规划的、一个执行代码的、一个专门核查。这种角色分工是为了让每个智能体专注自己擅长的子任务,整体表现比一个通才从头跑到尾更稳定、更可控
专精化的代价是能力边界。每个智能体在自己的域里游刃有余,在别的地方却够不着。碰上需要多个环节串联的任务,没有谁能独立完成,协作是必须的。问题就落在这里:怎么协调一群各司其职、各有短板的智能体?
最直觉的路是请一个 “中央指挥官” 来协调。MetaGPT、ChatDev、AutoGen 走的都是这条路。但中心化编排有两个结构性硬伤:
- 规划被卡在单一闸口:所有信息和决策都流经指挥官,它既是性能瓶颈又是单点故障。指挥官判断失误,整个系统跟着错
- 协调成本随规模线性增长:智能体越多,指挥官要管的对象越多,系统越大越笨重
问题的根子不在于指挥官不够聪明,而在于它必须把分散在每个个体手里的知识集中到一处再做决策 —— 可这些知识本来就是分散的、私有的,如果一定要完整上交,那随着系统能力扩展一定会带来质量与效率瓶颈
这其实很像经济学家哈耶克在《知识在社会中的运用》里提出的核心洞见:价格本身就是信号,它把分散的信息聚合并传递出去,让每个人不需要掌握全局,就能各自做出协调一致的行动。大规模社会秩序正是从竞争、专业化和交换这些去中心化互动中自发涌现出来的
EoM 的出发点就此落地:能不能干脆别设计协调机制,而是设计一套经济激励,让智能体们自己学会协调、分工与合作?
二、核心机制:把一群智能体扔进一个市场
EoM 把一群 LLM 智能体建模为存在经济往来的"社会。每个智能体只做局部决策:“现在该不该我上” 和 “我上去做什么”,全局协调就从经济互动中自发浮现。整个系统由两个相互咬合的过程组成:
- 规划:一个回合内,谁出手、功劳怎么分
- 适应:跨回合,种群怎么进化
2.1 智能体设计
所有智能体共用同一个冻结的大模型当底座,彼此的差异完全来自不同的系统提示词。没有任何模型被重新训练,多样性纯粹来自角色设定的不同。每个智能体由四样东西定义:
- 唤醒条件:看一眼当前局面,判断 “该不该我上”,输出是/否
- 行动策略:如果轮到它,具体产出什么动作
- 固定出价:一个数字,代表它愿意为 “拿到行动权” 付出的价钱,创建时定死
- 当前财富:兜里还有多少钱
本质上,一个智能体就是 “一对提示词 + 一个出价 + 一笔财富”
2.2 拍卖
在每一步,所有智能体先各自判断唤醒条件,看自己够不够资格。够资格的智能体中出价最高的赢得行动权(平局随机决定)。赢家根据策略采样一个动作,推动环境进入下一个状态,并可能拿到一份环境奖励
控制权不是某个中央策略发下来的,而是被在当前局面下最舍得出价的那个智能体抢到的。长期竞争会逼出专业化 —— 只有那些在特定情境下持续做得好的智能体,才撑得住长期竞拍
2.3 交易
光竞拍不够,还得有钱的流转。EoM 用了一条接力式的转账规则:
- 每一步拍到行动权的智能体,把自己的出价付给上一步出手的那个;
- 同时收下环境这一步给的奖励;
- 回合里第一个出手的人,把钱付给庄家
这条规则实现了去中心化的信用分配:一个智能体赚钱,不只靠自己直接拿奖励,还靠它把系统带到了一个 “下游智能体愿意高价接手” 的好局面。于是价值沿着成功的轨迹反向流动:为后续高价值动作铺路的智能体持续积累财富,把系统带进死胡同的智能体不断失血
2.4 适应
回合之间,种群按经济规律进化:
- 交租:每个智能体定期交租金,逼着它必须 “挣回房租”,占位不干活会慢慢饿死
- 清退:财富变负数的直接破产出局
- 注入:补充新智能体到种群上限
补充新智能体有两条路:
- 利用:有钱的智能体当模板,变异其提示词繁衍后代
- 探索:破产的智能体被拿来做反面教材,系统生成修正版,即从失败中学习,避免过早收敛
还有一个关键设计:新手保护。新智能体的第一次出价被定为全场最高价,保证它赢得竞拍,之后再由市场决定它的去留
整套进化全由经济信号驱动,没有中央监督,也没有谁给全局表现打标签。
三、实验结果
3.1 多领域基准测试
为了验证框架的有效性,作者特意以一组 “残缺” 的智能体做实验:各个智能体被故意削弱,例如只能用一个工具、只能输出很短的内容、只能看到环境一角等。而对照组则使用具备完整功能的强智能体,它掌握完整的任务接口,能端到端独立解题。实验的目标就是验证在设定的经济框架下,残缺弱者抱团能否打过全能强者
实验横跨五个领域:
- 数学推理::MATH 基准测试,使用 Llama-3.1-8B 底座,残缺种群中每个智能体平均只能输出 128 个 token
- 加速器设计:集成电路设计领域,用 Gemmini 测试套件跑 ResNet-50,评测指标为能量延迟积(EDP,越低越好)
- 金融研究:Finance-Agent-Bench 基准,每个残缺智能体只能使用一个工具
- 科学研究:FrontierScience- Research 基准,解决开放性科学问题,需要结合文献、规划、执行和验证角色完成任务
- 分布式系统优化:Cloudcast(来自 ADRS)任务,智能体需要迭代改进程序以最小化总数据传输成本
完整功能的智能体主要使用 ReAct、GEA(ReAct 基础上增加经验共享与智能体自我迭代)来实现,某些特定领域任务还使用了相关的专用框架,详见论文附录
实验结果如下:
数学推理场景下,残缺种群准确率从 15.9% 提升到 57.0%,反超完整基线的 51.9%;加速器设计场景下,EDP 压到了 39.3,优于完整 ReAct 的 43.1,远胜传统专用方法 DOSA 的 80.2;金融领域,EoM 从 45.0% 提升到 60.0%,超过多智能体辩论的 50.0%;科研场景下,EoM 平均准确率 8.5%,最佳 20.0%,而 GEA 只有 1.8% 平均、5.0% 最佳;分布式系统场景最佳成本 657,比 OpenEvolve 的 930 降低 28%,用的优化回合还更少
3.2 泛化性与鲁棒性
学成的行为能否从简单任务迁移到复杂任务?
作者分析了数学场景下,不通难度的题目在训练过程中的准确率变化情况。训练采用课程学习:先跑简单任务再逐渐提高任务难度从最后一张子图可见,尽管训练早期看到的都是简单题目,但 level 5 的困难任务准确率也能缓慢提升,最终达到 20%,这说明智能体在简单问题中学成的局部推理方法可以被重新组合应用于更复杂的问题
鲁棒性方面,作者测试了课程学习顺序上的扰动对最终结果的影响。如下图 b 所示,把训练顺序完全颠倒成先学难得再学简单的,效果确实会下降,但并没有丧失学习能力,随着训练推进能力正常提升
此外,作者还尝试在一群弱智能体中放入一个具备完整能力的强智能体,观察其能否扰乱或垄断整个市场。结果如上图 c 所示,全能选手并没有在竞争中取得优势,原因在于 EoM 的奖励设置更鼓励局部价值::一个把唤醒条件、工具使用和证据标准都调校到某个细分子问题上的专家,能干过一个把提示词预算摊薄在一堆杂事上的通才
社会保持去中心化,不是因为禁止完整智能体存在,而是因为市场始终更偏爱 “局部上更精准” 的专家
四、探讨:经济框架到底有没有起作用?
4.1 消融
一个自然质疑:这会不会只是智能体多带来的好处,跟经济机制没关系?
在 MATH 上,原始系统 57.0%。一旦扰动经济参数,比如租金调大 10 倍、奖励缩小到 0.2 倍等,最佳准确率都掉到 44~47%。这说明最终性能依赖于 “奖励流入、租金压力、智能体存活” 三者的平衡
在 Finance-Agent-Bench 上更鲜明:
- 去掉探索:暴跌到 26.0%
- 去掉利用:掉到 33.5%
- 去掉拍卖:降到 48.0%
Cloudcast 的对照更直接:EoM 成本降到 673,而同样用多智能体但不靠市场进化的 best-of-N 基线只做到 999。同样是多智能体,少了市场进化这一环,差距立现。经济机制不是可有可无的实现细节,而是把"一堆残缺智能体"变成"自适应社会"的核心引擎。
4.2 是否演化出了可复用的结构
在加速器设计上,EoM 相比 DOSA 拿到了 2.2 倍的 EDP 增益,且增益高度结构化:最难的几个卷积核分别有 37.5x、26.3x、17.3x、12.0x 的提升。这些核恰好是 ResNet-50 瓶颈块里的 1x1 卷积,它们的通道数大、空间尺寸小。对这种形状,业界常用一种 “输出驻留(output-stationary)” 的设计模式,即在高速片的存储中保持每个输出部分和,并沿输入同党维度累加贡献
EoM 从没被告知这个套路,奖励里也没有针对数据流的引导。但最强的那批解里,种群反复收敛到了同一种切分模式,相当于重新发明了这个业界技巧。市场选择确实能在 “让成功者积累财富并繁衍” 的过程中,挖出可复用的领域结构
