当前位置：首页 > news >正文

谷歌痛失两员大将致股价暴跌，“Transformer 之父”八人九年来履历与去向大揭秘

news 2026/6/28 23:00:21

谷歌痛失两员大将致股价暴跌，“Transformer 之父”八人九年来履历与去向大揭秘

前几天，谷歌接连痛失两员大将。6月18日，Transformer论文的共同作者之一Noam Shazeer在X上宣布离职，加入OpenAI。两天后，2024年诺贝尔化学奖得主、AlphaFold团队负责人John Jumper也宣布离开Google DeepMind，去向是Anthropic。

两条消息接连砸下，资本市场反应强烈：谷歌母公司Alphabet股价一度暴跌超7%，市值蒸发逾3000亿美元。多家分析机构将此次抛售归因于「人才出走」。D.A. Davidson的分析师Gil Luria直言，Shazeer投奔OpenAI、Jumper投奔Anthropic，两人前后脚离职，让市场开始担心谷歌在AI人才争夺战中落于下风。

Shazeer的离开尤为值得关注——这已是他第二次离开谷歌。2021年，他因不满公司不愿公开发布自己主导研发的聊天机器人，出走创办了Character.AI；2024年8月，谷歌花约27亿美元买下Character.AI的技术授权，将他请回DeepMind，让他出任Gemini项目的工程副总裁，与Jeff Dean共同领导该项目。不到两年，他还是走了，这次去了死对头OpenAI。

至此，九年前发表的论文《Attention Is All You Need》的八位共同作者，已全部离开谷歌。X用户Tyler Maran做了一张图，展示他们如今各自的去向，这张图在社交网络上被大量转发。

不过，这张图可能很快就会过时。过去两天，市场传言英伟达正在悄悄吸纳Essential AI的核心团队，其中包括Transformer论文作者之一、Essential AI联合创始人兼CEO Ashish Vaswani。截至发稿，英伟达和Essential AI均未正式回应此事。

借此机会，我们来完整盘点这八位被称为「Transformer 之父」的人九年来的履历，以及他们如今的真正去处。需说明的是，《Attention Is All You Need》论文的作者顺序是随机排列的。论文脚注明确：所有作者贡献均等，排序随机，不存在「第一作者」或「通讯作者」。本文按论文原本的署名顺序，依次介绍这八个人。

「万物起源」：八个不务正业的谷歌人

要理解他们如今的去向，得回到2017年。当时，机器翻译领域主流是循环神经网络（RNN），模型按顺序处理句子，无法并行计算，训练又慢又贵。谷歌大脑的八个人决定尝试一个大胆想法：扔掉循环结构，只留「注意力机制」，让模型一次性看完整句话，自行判断重点关注的词。论文标题「Attention Is All You Need」化用了披头士的《All You Need Is Love》，此后成为许多论文标题模仿的形式。

论文的作者贡献说明记录了每个人的具体工作：Jakob Uszkoreit最先提出用自注意力取代循环结构，并主导早期验证；Ashish Vaswani与Illia Polosukhin一起设计并实现最初的Transformer模型，几乎参与项目各环节；Noam Shazeer提出缩放点积注意力、多头注意力机制以及无参数的位置表示方法，事事亲力亲为；Niki Parmar在最初的代码库和后来的tensor2tensor框架里，设计、实现并调试了众多模型变体；Llion Jones尝试大量新模型变体，负责最初的代码库、推理效率优化和可视化工作；Łukasz Kaiser和Aidan N. Gomez搭建tensor2tensor的各个模块，替换早期代码库，提升了实验结果和研究效率。

这段说明也揭示了一个细节：尽管论文署名顺序随机，但Uszkoreit、Vaswani、Polosukhin和Shazeer承担了架构层面更核心的角色，而Parmar、Jones、Kaiser和Gomez则在工程实现和系统搭建上发挥重要作用——这也是后来八人选择不同道路时，性格与专长差异的早期体现。

「Transformer」这个名字也有故事。Uszkoreit喜欢这个词的发音，团队内部自称「Team Transformer」，早期设计文档封面上画着变形金刚动画里的六个角色。论文发表至今，引用量已超过26万次，是21世纪被引用最多的论文之一。

Ashish Vaswani

Vaswani 1986年出生于印度，2002年从印度比拉理工学院（BIT Mesra）获得计算机科学学士学位，随后赴美，在南加州大学跟随David Chiang攻读博士，研究统计机器翻译和神经网络语言建模。博士毕业后，他在南加大信息科学研究所做了两年计算机科学家，2016年加入Google Brain成为研究科学家，工作至2021年。

按论文作者贡献说明，Vaswani与Illia Polosukhin一起设计并实现最初的Transformer模型，是核心人物之一。离开谷歌后，2021年他与Niki Parmar、前OpenAI工程副总裁David Luan等人共同创办Adept AI，担任首席科学家，目标是打造能在任意软件里自主完成操作的「行为模型」。Adept一度融资超4亿美元，估值约10亿美元，但产品未落地，团队出现分歧。Vaswani和Parmar早早退出，他在Adept的首席科学家任期止于2022年11月。

2023年初，Vaswani与Parmar再次合作创立Essential AI，他出任CEO。公司获谷歌、英伟达、AMD战略投资：种子轮830万美元由Thrive Capital领投，2023年底5650万美元A轮由March Capital领投，谷歌、英伟达、AMD、KB Investment、Franklin Templeton等机构跟投。2026年初，公司完成1.75亿美元B轮融资，由Lightspeed Venture Partners领投，Thrive Capital跟投，估值达10亿美元，成为独角兽。2025年底，公司发布首个开源模型系列Rnj - 1（以印度数学家拉马努金Ramanujan命名）。

然而过去两天情况有变。据报道，英伟达正在招募Essential AI的核心团队，Vaswani也在其中，未来将参与英伟达开源模型Nemotron的研发。消息人士称，原因是Essential AI融资遇瓶颈，且把Vaswani和团队从英伟达竞争对手AMD的阵营拉走是划算的买卖。已有几位Essential AI的研究员（包括Alok Tripathy、Saurabh Srivastava）更新领英资料，显示已加入英伟达。但截至目前，英伟达和Essential AI均未正式确认该消息。

Noam Shazeer

Shazeer 1976年出生于费城，是正统犹太教徒；父亲Dov Shazeer是数学教师出身的工程师，姐妹被希伯来学院授予拉比资格。他少年时天赋出众，1994年作为美国队成员参加国际数学奥林匹克竞赛获满分金牌，随后进入杜克大学学习数学和计算机科学，是Angier B. Duke纪念奖学金获得者，并在Putnam数学竞赛中获奖。

2000年，Shazeer加入谷歌，早期成名作是修好谷歌搜索的拼写纠错功能。按Transformer论文作者贡献说明，他提出缩放点积注意力、多头注意力机制以及无参数的位置表示方法，是除Vaswani和Polosukhin外，「几乎参与每个细节」的人。

2017年合著Transformer论文后，他和同事Daniel De Freitas做出聊天机器人Meena，但谷歌未公开发布。2021年两人离职创办Character.AI，从a16z等机构融资超1.5亿美元，做成受欢迎的角色扮演聊天应用。

2024年8月，情况转折：谷歌与Character.AI达成27亿美元授权协议，Shazeer和De Freitas带同事回谷歌DeepMind，他被任命为工程副总裁，与Jeff Dean、Oriol Vinyals共同领导Gemini项目。因他持有Character.AI约三成到四成股份，这笔交易让他个人套现7.5亿到10亿美元。2026年，他当选美国国家工程院院士，履历辉煌。

但几个月后，他再次离开，这次去了OpenAI，负责「架构研究」方向，恰逢OpenAI为冲击IPO招兵买马（公司6月8日已向美国证券交易委员会秘密提交S - 1文件，估值传闻达8520亿美元）。OpenAI CEO Sam Altman公开表示：「从OpenAI创立第一天起，他就是我最想合作的人之一」，还称这次招聘「酝酿了十年」。

对谷歌而言，这是代价高昂的「回购未遂」：两年前花27亿美元请回的人，如今投奔头号竞争对手，这也是本周谷歌股价大跌的直接原因之一。

Niki Parmar

Parmar出生于印度浦那，本科就读于浦那计算机技术学院（Pune Institute of Computer Technology），主修信息技术。在校期间，她通过吴恩达和Peter Norvig开设的网络公开课对人工智能和机器学习产生兴趣，随后赴美在南加州大学读计算机科学硕士，跟随教授Morteza Dehghani用机器学习方法研究社会科学问题。

2015年，Parmar加入谷歌研究院做软件工程师，2017年转入谷歌大脑做研究软件工程师，是当时谷歌大脑团队里最年轻、唯一没有博士学位的研究人员。

按论文作者贡献说明，她在最初的代码库和后来的tensor2tensor框架里，设计、实现并调试了众多模型变体。论文发表后，她将Transformer推向语言之外领域，参与自注意力机制扩展到图像生成和计算机视觉的研究。

2021年，Parmar离开谷歌，与Ashish Vaswani、David Luan等人共同创办Adept AI，担任首席技术官。她和Vaswani一样早早退出Adept，2023年初与Vaswani一起创立Essential AI，继续担任联合创始人。

但她没等到Essential AI的B轮融资和独角兽身份。2024年底，Parmar悄悄离开Essential AI，加入Anthropic，并于2025年2月公开宣布。她在X上写道：「今天和往常一样适合分享：我去年12月加入了Anthropic。」她随后参与Claude 3.7 Sonnet的开发，这是Anthropic历史上重要的模型发布之一。如今她是Anthropic的技术团队成员，专注于前沿能力研究和强化学习方向。

两位曾经的合著者、两次共同创业的搭档，最终走向不同归宿：Parmar提前一年多悄然离开，融入头部实验室；而Vaswani选择继续推动Essential AI发展，直到本周被竞争对手招揽。

Jakob Uszkoreit

Uszkoreit出生于语言学世家，父亲Hans Uszkoreit是知名计算语言学家。儿子提出「单靠注意力机制就够用」假设时，父亲也表示怀疑。Uszkoreit在柏林工业大学获得博士学位，后来在谷歌大脑达到「杰出科学家」级别。

按论文作者贡献说明，Uszkoreit最先提出用自注意力机制取代循环神经网络，并主导早期验证——这个假设的种子，早在他2016年与Ankur Parikh、Oscar Täckström、Dipanjan Das合著的「可分解注意力模型」论文中就已埋下。

「Transformer」这个名字因他喜欢发音而定，团队内部自称「Team Transformer」，早期设计文档封面上画着变形金刚动画里的六个角色。

2020年底，DeepMind的AlphaFold2证明Transformer式的模型可解决蛋白质折叠难题。他意识到，深度学习未能改变生物学，缺的不是算法，而是数据。「这几乎成了一种道德义务，」他回忆说。

于是2021年，他和斯坦福大学生物化学教授、知名RNA设计游戏Eterna的开发者Rhiju Das共同创立Inceptive，公司总部在伯克利，研究团队在柏林——他本人住在柏林，员工分布在苏黎世、伦敦、温哥华和美国东海岸多个城市。公司核心思路是反向做实验：用机器人和人工大规模生成全新的RNA实验数据，再喂给模型学习。

Inceptive已从英伟达、a16z、Obvious Ventures、Section 32等机构融资约1.2亿美元。本月初，RNA干扰疗法的开创者Alnylam制药与Inceptive签署战略合作，借助Inceptive的基础模型加速siRNA候选药物的设计，首付款3000万美元，整笔合作潜在总金额可达约20亿美元。Uszkoreit表示：「大多数药物设计靠试错，而Inceptive认为生命规律复杂，只有AI能学会。」

八位作者中，他是唯一转行做生物科技的人，印证了论文当年的预言：注意力机制的潜力，不止于机器翻译。

Llion Jones

Jones是威尔士人，毕业于伯明翰大学，2011年加入谷歌做软件工程师，工作十多年，是八位作者中少数没有博士学位、靠工程直觉摸索的人。

按论文作者贡献说明，他尝试大量新模型变体，负责最初的代码库、推理效率优化和可视化工作。他回忆那个关键瞬间：「我们尝试砍掉模型部分，看效果，结果反而更好。」这是「循环结构多余」假设首次被验证。

2023年，Jones和同样来自谷歌的David Ha在东京创立Sakana AI。「Sakana」在日语中是「鱼」的意思。Ha任CEO，Jones任CTO，公司另一位联合创始人Ren Ito任COO。

Jones常驻东京，在社交媒体自称「住在东京的威尔士AI研究员」。公司研究路线反潮流：不单纯堆算力和参数，而是借鉴自然演化逻辑，让小模型像鱼群一样协作，代表性研究成果有Continuous Thought Machine（连续思维机）和能自主开展端到端研究的「AI Scientist」项目。近日，公司发布性能前沿的Sakana Fugu模型。

Sakana AI累计融资3.79亿美元，包括2026年3月完成的B轮融资，三菱电机是投资方之一。2026年3月，公司与三菱日联金融集团（MUFG）达成多年合作协议，后者计划用Sakana的技术改造银行业务系统，这笔合作有望让估值约15亿美元的公司一年内盈利。

Jones多次表达对单纯「scaling」的怀疑。2026年3月，他在银行业内部活动中说，当下AI研究面临尴尬：投资和人才涌入，理论上应催生更多突破，但实际留给研究者「自由摸索」的空间被压缩。他提到，Sakana内部保留部分「没有KPI」的研究自由度，因为下一个突破可能来自这种不计后果的长线投入——这也是当年谷歌大脑孕育出Transformer的方式。

他还说过：要让新架构取代Transformer，必须「明显地、毫无疑问地更好」。

Aidan N. Gomez

Gomez是八位作者中年纪最小的。论文发表时，他是谷歌大脑20岁的本科实习生，在多伦多大学读计算机和数学双学位。

按论文作者贡献说明，他和Łukasz Kaiser搭建tensor2tensor框架的各个模块，替换早期代码库，提升了实验结果和研究效率。他回忆：「我只想搞清楚注意力机制，没想到它会成为『万物的架构』。」论文发表后，他去牛津大学读博士，中途暂停学业创业，2024年正式拿到博士学位。

2019年，Gomez和Ivan Zhang、Nick Frosst创办Cohere，定位为企业级AI服务商，避开消费级聊天机器人的烧钱竞赛，主打数据隐私、本地化部署和多语言能力，客户多为大型企业和各国政府。2023年，Gomez入选《时代周刊》AI领域百大影响力人物，他和联合创始人获《麦考林》杂志AI趋势先锋榜首位；2025年4月，他入选电动车公司Rivian的董事会。

这种「不性感」的打法让公司财务数据良好：截至2026年中，Cohere年化经常性收入超2亿美元，过去一年增长6倍，毛利率约70%，累计融资近17亿美元，估值约70亿美元；2025年8月，公司请来曾参与Uber上市的Francois Chadwick担任首位CFO，员工二级市场卖出股份的窗口已开放一轮，Gomez多次表示IPO「快了」，但公司仍未向监管机构提交招股书。

Gomez越来越像地缘政治意义上的AI发言人。本周，他在《财富》杂志撰文，呼吁各国重视「数字主权」问题，提到Anthropic模型访问权限收紧事件，警告各国不能把未来「租」给少数科技巨头，要建立多元生态，让各国依赖不同AI供应商，保有自己的价值观、语言和法律体系。

他还表示，外界对「AI末日」风险的担忧被夸大，他更担心虚假信息在社交媒体上被自动化放大。Gomez如今关注的不仅是模型本身，还有谁有资格决定全球使用的AI。

Łukasz Kaiser

Kaiser是波兰人，最初学术训练集中在逻辑学、自动机理论、算法模型论和博弈论等理论计算机科学方向：他在弗罗茨瓦夫大学获得数学和计算机科学双硕士学位，在德国亚琛工业大学完成博士学业，随后在法国国家科学研究中心（CNRS）和巴黎七大拥有终身教职，专注于逻辑学和自动机理论的纯理论研究。后来他转向应用，在谷歌大脑工作近八年，期间是TensorFlow的合著者之一，与Samy Bengio合作发表「主动记忆能否取代注意力」的早期论文，与Ilya Sutskever合作发表「神经GPU学习算法」。

按论文作者贡献说明，他和Aidan N. Gomez搭建tensor2tensor框架，提升了实验结果和研究效率。

八位作者中，他是唯一未创业、始终在大型实验室做纯研究的人。2021年他加入OpenAI，当时ChatGPT还未面世。在OpenAI，他参与Codex的研发（后来成为GitHub Copilot的技术基础）以及配套的HumanEval编程基准，也参与GSM8K数学题数据集的研究，这项工作展示了「让模型多算、多采样」可提升准确率，是后来推理模型范式的雏形。

他还是GPT - 4技术报告的署名作者之一，成为OpenAI首个推理模型o1（2024年9月发布）的核心贡献者，被认为是「研究负责人」级别的角色，此后参与o3及更新的推理范式，直到如今的GPT - 5系列。

他最近在Matt Turck主持的MAD Podcast上谈到，Transformer已被数学证明可解决任何问题，只要允许模型生成足够多的中间推理步骤。这是对九年前那篇论文的更精确注解。

Illia Polosukhin

Polosukhin来自乌克兰哈尔科夫，本科学应用数学，是国际大学生程序设计竞赛（ICPC）冠军选手。他回忆，十岁看《黑客帝国》后，就对人工智能产生浓厚兴趣。2014年，他加入谷歌，参与TensorFlow相关研究，也从事机器阅读理解和问答系统方面的研究。

按论文作者贡献说明，他与Ashish Vaswani一起设计并实现最初的Transformer模型，负责验证架构在机器翻译任务上的有效性。

论文发表后，2017年他离开谷歌，与Alexander Skidanov共同创办人工智能公司NEAR.AI。不久他们发现，做去中心化基础设施更有趣，于是2018年前后公司转型为区块链项目NEAR Protocol。NEAR采用Nightshade分片技术，通过Aurora提供与以太坊兼容的二层网络，2020年主网正式上线，已从a16z、Coinbase、老虎环球基金、Hashed、Dragonfly Capital等机构融资超5.3亿美元。

如今的Polosukhin试图融合自己的两个身份：2026年3月，他表示「区块链未来的用户将是AI智能体，而非人类」，将NEAR定位为智能体经济的「结算层」。同年4月，他呼吁建立更完善的监管框架应对自主AI智能体，认为现有机构和制度未准备好处理责任归属和系统性风险问题，呼吁建立清晰的问责机制和「人在回路」式的监督。

他目前常驻葡萄牙。能同时拥有「写了奠基性LLM论文」和「经营市值数十亿美元区块链公司」两个身份的人，全世界可能只有他一个。

八条路，继续探索

2024年3月，英伟达GTC大会上，八位作者中的七位（Niki Parmar因故缺席）首次以群体身份亮相，接受黄仁勋访谈。黄仁勋说：「我们今天享受的一切，都能追溯到那一刻。」对话结束时，他给每人送上一块刻着「你们改变了世界（You transformed the world）」的英伟达DGX - 1超算签名纪念牌。同年11月，日本NEC C&C;基金会将当年的C&C;奖颁给「Transformer团队」，与他们同台领奖的是三位研究跨洋海底光缆传输技术的资深工程师。不同领域的基础设施建设者，被放在同一个奖项里。

九年过去，这八条人生轨迹已分散到几乎不会相交的地方：硅谷的企业服务赛道，东京的演化算法实验室，柏林的分子生物学公司，葡萄牙的区块链协议，以及本周仍在变动的几家头部AI实验室。

但如果把他们的话放在一起，会发现一个共同观点：没有人认为Transformer是终点。Aidan N. Gomez说世界需要更好的架构；Llion Jones认为新架构必须「明显地、毫无疑问地更好」才能取代Transformer；Łukasz Kaiser用数学语言探索这套九年前诞生的架构能将人类带多远。

这或许是论文留下的最持久遗产：八位作者虽散落各地，但都未停止寻找下一个答案。

查看全文

http://www.jsqmd.com/news/1086068/