当前位置: 首页 > news >正文

谷歌痛失两员大将致股价暴跌,“Transformer 之父”八人九年来履历与去向大揭秘

谷歌痛失两员大将致股价暴跌,“Transformer 之父”八人九年来履历与去向大揭秘

前几天,谷歌接连痛失两员大将。6月18日,Transformer论文的共同作者之一Noam Shazeer在X上宣布离职,加入OpenAI。两天后,2024年诺贝尔化学奖得主、AlphaFold团队负责人John Jumper也宣布离开Google DeepMind,去向是Anthropic。

两条消息接连砸下,资本市场反应强烈:谷歌母公司Alphabet股价一度暴跌超7%,市值蒸发逾3000亿美元。多家分析机构将此次抛售归因于「人才出走」。D.A. Davidson的分析师Gil Luria直言,Shazeer投奔OpenAI、Jumper投奔Anthropic,两人前后脚离职,让市场开始担心谷歌在AI人才争夺战中落于下风。

Shazeer的离开尤为值得关注——这已是他第二次离开谷歌。2021年,他因不满公司不愿公开发布自己主导研发的聊天机器人,出走创办了Character.AI;2024年8月,谷歌花约27亿美元买下Character.AI的技术授权,将他请回DeepMind,让他出任Gemini项目的工程副总裁,与Jeff Dean共同领导该项目。不到两年,他还是走了,这次去了死对头OpenAI。

至此,九年前发表的论文《Attention Is All You Need》的八位共同作者,已全部离开谷歌。X用户Tyler Maran做了一张图,展示他们如今各自的去向,这张图在社交网络上被大量转发。

不过,这张图可能很快就会过时。过去两天,市场传言英伟达正在悄悄吸纳Essential AI的核心团队,其中包括Transformer论文作者之一、Essential AI联合创始人兼CEO Ashish Vaswani。截至发稿,英伟达和Essential AI均未正式回应此事。

借此机会,我们来完整盘点这八位被称为「Transformer 之父」的人九年来的履历,以及他们如今的真正去处。需说明的是,《Attention Is All You Need》论文的作者顺序是随机排列的。论文脚注明确:所有作者贡献均等,排序随机,不存在「第一作者」或「通讯作者」。本文按论文原本的署名顺序,依次介绍这八个人。

「万物起源」:八个不务正业的谷歌人

要理解他们如今的去向,得回到2017年。当时,机器翻译领域主流是循环神经网络(RNN),模型按顺序处理句子,无法并行计算,训练又慢又贵。谷歌大脑的八个人决定尝试一个大胆想法:扔掉循环结构,只留「注意力机制」,让模型一次性看完整句话,自行判断重点关注的词。论文标题「Attention Is All You Need」化用了披头士的《All You Need Is Love》,此后成为许多论文标题模仿的形式。

论文的作者贡献说明记录了每个人的具体工作:Jakob Uszkoreit最先提出用自注意力取代循环结构,并主导早期验证;Ashish Vaswani与Illia Polosukhin一起设计并实现最初的Transformer模型,几乎参与项目各环节;Noam Shazeer提出缩放点积注意力、多头注意力机制以及无参数的位置表示方法,事事亲力亲为;Niki Parmar在最初的代码库和后来的tensor2tensor框架里,设计、实现并调试了众多模型变体;Llion Jones尝试大量新模型变体,负责最初的代码库、推理效率优化和可视化工作;Łukasz Kaiser和Aidan N. Gomez搭建tensor2tensor的各个模块,替换早期代码库,提升了实验结果和研究效率。

这段说明也揭示了一个细节:尽管论文署名顺序随机,但Uszkoreit、Vaswani、Polosukhin和Shazeer承担了架构层面更核心的角色,而Parmar、Jones、Kaiser和Gomez则在工程实现和系统搭建上发挥重要作用——这也是后来八人选择不同道路时,性格与专长差异的早期体现。

「Transformer」这个名字也有故事。Uszkoreit喜欢这个词的发音,团队内部自称「Team Transformer」,早期设计文档封面上画着变形金刚动画里的六个角色。论文发表至今,引用量已超过26万次,是21世纪被引用最多的论文之一。

Ashish Vaswani

Vaswani 1986年出生于印度,2002年从印度比拉理工学院(BIT Mesra)获得计算机科学学士学位,随后赴美,在南加州大学跟随David Chiang攻读博士,研究统计机器翻译和神经网络语言建模。博士毕业后,他在南加大信息科学研究所做了两年计算机科学家,2016年加入Google Brain成为研究科学家,工作至2021年。

按论文作者贡献说明,Vaswani与Illia Polosukhin一起设计并实现最初的Transformer模型,是核心人物之一。离开谷歌后,2021年他与Niki Parmar、前OpenAI工程副总裁David Luan等人共同创办Adept AI,担任首席科学家,目标是打造能在任意软件里自主完成操作的「行为模型」。Adept一度融资超4亿美元,估值约10亿美元,但产品未落地,团队出现分歧。Vaswani和Parmar早早退出,他在Adept的首席科学家任期止于2022年11月。

2023年初,Vaswani与Parmar再次合作创立Essential AI,他出任CEO。公司获谷歌、英伟达、AMD战略投资:种子轮830万美元由Thrive Capital领投,2023年底5650万美元A轮由March Capital领投,谷歌、英伟达、AMD、KB Investment、Franklin Templeton等机构跟投。2026年初,公司完成1.75亿美元B轮融资,由Lightspeed Venture Partners领投,Thrive Capital跟投,估值达10亿美元,成为独角兽。2025年底,公司发布首个开源模型系列Rnj - 1(以印度数学家拉马努金Ramanujan命名)。

然而过去两天情况有变。据报道,英伟达正在招募Essential AI的核心团队,Vaswani也在其中,未来将参与英伟达开源模型Nemotron的研发。消息人士称,原因是Essential AI融资遇瓶颈,且把Vaswani和团队从英伟达竞争对手AMD的阵营拉走是划算的买卖。已有几位Essential AI的研究员(包括Alok Tripathy、Saurabh Srivastava)更新领英资料,显示已加入英伟达。但截至目前,英伟达和Essential AI均未正式确认该消息。

Noam Shazeer

Shazeer 1976年出生于费城,是正统犹太教徒;父亲Dov Shazeer是数学教师出身的工程师,姐妹被希伯来学院授予拉比资格。他少年时天赋出众,1994年作为美国队成员参加国际数学奥林匹克竞赛获满分金牌,随后进入杜克大学学习数学和计算机科学,是Angier B. Duke纪念奖学金获得者,并在Putnam数学竞赛中获奖。

2000年,Shazeer加入谷歌,早期成名作是修好谷歌搜索的拼写纠错功能。按Transformer论文作者贡献说明,他提出缩放点积注意力、多头注意力机制以及无参数的位置表示方法,是除Vaswani和Polosukhin外,「几乎参与每个细节」的人。

2017年合著Transformer论文后,他和同事Daniel De Freitas做出聊天机器人Meena,但谷歌未公开发布。2021年两人离职创办Character.AI,从a16z等机构融资超1.5亿美元,做成受欢迎的角色扮演聊天应用。

2024年8月,情况转折:谷歌与Character.AI达成27亿美元授权协议,Shazeer和De Freitas带同事回谷歌DeepMind,他被任命为工程副总裁,与Jeff Dean、Oriol Vinyals共同领导Gemini项目。因他持有Character.AI约三成到四成股份,这笔交易让他个人套现7.5亿到10亿美元。2026年,他当选美国国家工程院院士,履历辉煌。

但几个月后,他再次离开,这次去了OpenAI,负责「架构研究」方向,恰逢OpenAI为冲击IPO招兵买马(公司6月8日已向美国证券交易委员会秘密提交S - 1文件,估值传闻达8520亿美元)。OpenAI CEO Sam Altman公开表示:「从OpenAI创立第一天起,他就是我最想合作的人之一」,还称这次招聘「酝酿了十年」。

对谷歌而言,这是代价高昂的「回购未遂」:两年前花27亿美元请回的人,如今投奔头号竞争对手,这也是本周谷歌股价大跌的直接原因之一。

Niki Parmar

Parmar出生于印度浦那,本科就读于浦那计算机技术学院(Pune Institute of Computer Technology),主修信息技术。在校期间,她通过吴恩达和Peter Norvig开设的网络公开课对人工智能和机器学习产生兴趣,随后赴美在南加州大学读计算机科学硕士,跟随教授Morteza Dehghani用机器学习方法研究社会科学问题。

2015年,Parmar加入谷歌研究院做软件工程师,2017年转入谷歌大脑做研究软件工程师,是当时谷歌大脑团队里最年轻、唯一没有博士学位的研究人员。

按论文作者贡献说明,她在最初的代码库和后来的tensor2tensor框架里,设计、实现并调试了众多模型变体。论文发表后,她将Transformer推向语言之外领域,参与自注意力机制扩展到图像生成和计算机视觉的研究。

2021年,Parmar离开谷歌,与Ashish Vaswani、David Luan等人共同创办Adept AI,担任首席技术官。她和Vaswani一样早早退出Adept,2023年初与Vaswani一起创立Essential AI,继续担任联合创始人。

但她没等到Essential AI的B轮融资和独角兽身份。2024年底,Parmar悄悄离开Essential AI,加入Anthropic,并于2025年2月公开宣布。她在X上写道:「今天和往常一样适合分享:我去年12月加入了Anthropic。」她随后参与Claude 3.7 Sonnet的开发,这是Anthropic历史上重要的模型发布之一。如今她是Anthropic的技术团队成员,专注于前沿能力研究和强化学习方向。

两位曾经的合著者、两次共同创业的搭档,最终走向不同归宿:Parmar提前一年多悄然离开,融入头部实验室;而Vaswani选择继续推动Essential AI发展,直到本周被竞争对手招揽。

Jakob Uszkoreit

Uszkoreit出生于语言学世家,父亲Hans Uszkoreit是知名计算语言学家。儿子提出「单靠注意力机制就够用」假设时,父亲也表示怀疑。Uszkoreit在柏林工业大学获得博士学位,后来在谷歌大脑达到「杰出科学家」级别。

按论文作者贡献说明,Uszkoreit最先提出用自注意力机制取代循环神经网络,并主导早期验证——这个假设的种子,早在他2016年与Ankur Parikh、Oscar Täckström、Dipanjan Das合著的「可分解注意力模型」论文中就已埋下。

「Transformer」这个名字因他喜欢发音而定,团队内部自称「Team Transformer」,早期设计文档封面上画着变形金刚动画里的六个角色。

2020年底,DeepMind的AlphaFold2证明Transformer式的模型可解决蛋白质折叠难题。他意识到,深度学习未能改变生物学,缺的不是算法,而是数据。「这几乎成了一种道德义务,」他回忆说。

于是2021年,他和斯坦福大学生物化学教授、知名RNA设计游戏Eterna的开发者Rhiju Das共同创立Inceptive,公司总部在伯克利,研究团队在柏林——他本人住在柏林,员工分布在苏黎世、伦敦、温哥华和美国东海岸多个城市。公司核心思路是反向做实验:用机器人和人工大规模生成全新的RNA实验数据,再喂给模型学习。

Inceptive已从英伟达、a16z、Obvious Ventures、Section 32等机构融资约1.2亿美元。本月初,RNA干扰疗法的开创者Alnylam制药与Inceptive签署战略合作,借助Inceptive的基础模型加速siRNA候选药物的设计,首付款3000万美元,整笔合作潜在总金额可达约20亿美元。Uszkoreit表示:「大多数药物设计靠试错,而Inceptive认为生命规律复杂,只有AI能学会。」

八位作者中,他是唯一转行做生物科技的人,印证了论文当年的预言:注意力机制的潜力,不止于机器翻译。

Llion Jones

Jones是威尔士人,毕业于伯明翰大学,2011年加入谷歌做软件工程师,工作十多年,是八位作者中少数没有博士学位、靠工程直觉摸索的人。

按论文作者贡献说明,他尝试大量新模型变体,负责最初的代码库、推理效率优化和可视化工作。他回忆那个关键瞬间:「我们尝试砍掉模型部分,看效果,结果反而更好。」这是「循环结构多余」假设首次被验证。

2023年,Jones和同样来自谷歌的David Ha在东京创立Sakana AI。「Sakana」在日语中是「鱼」的意思。Ha任CEO,Jones任CTO,公司另一位联合创始人Ren Ito任COO。

Jones常驻东京,在社交媒体自称「住在东京的威尔士AI研究员」。公司研究路线反潮流:不单纯堆算力和参数,而是借鉴自然演化逻辑,让小模型像鱼群一样协作,代表性研究成果有Continuous Thought Machine(连续思维机)和能自主开展端到端研究的「AI Scientist」项目。近日,公司发布性能前沿的Sakana Fugu模型。

Sakana AI累计融资3.79亿美元,包括2026年3月完成的B轮融资,三菱电机是投资方之一。2026年3月,公司与三菱日联金融集团(MUFG)达成多年合作协议,后者计划用Sakana的技术改造银行业务系统,这笔合作有望让估值约15亿美元的公司一年内盈利。

Jones多次表达对单纯「scaling」的怀疑。2026年3月,他在银行业内部活动中说,当下AI研究面临尴尬:投资和人才涌入,理论上应催生更多突破,但实际留给研究者「自由摸索」的空间被压缩。他提到,Sakana内部保留部分「没有KPI」的研究自由度,因为下一个突破可能来自这种不计后果的长线投入——这也是当年谷歌大脑孕育出Transformer的方式。

他还说过:要让新架构取代Transformer,必须「明显地、毫无疑问地更好」。

Aidan N. Gomez

Gomez是八位作者中年纪最小的。论文发表时,他是谷歌大脑20岁的本科实习生,在多伦多大学读计算机和数学双学位。

按论文作者贡献说明,他和Łukasz Kaiser搭建tensor2tensor框架的各个模块,替换早期代码库,提升了实验结果和研究效率。他回忆:「我只想搞清楚注意力机制,没想到它会成为『万物的架构』。」论文发表后,他去牛津大学读博士,中途暂停学业创业,2024年正式拿到博士学位。

2019年,Gomez和Ivan Zhang、Nick Frosst创办Cohere,定位为企业级AI服务商,避开消费级聊天机器人的烧钱竞赛,主打数据隐私、本地化部署和多语言能力,客户多为大型企业和各国政府。2023年,Gomez入选《时代周刊》AI领域百大影响力人物,他和联合创始人获《麦考林》杂志AI趋势先锋榜首位;2025年4月,他入选电动车公司Rivian的董事会。

这种「不性感」的打法让公司财务数据良好:截至2026年中,Cohere年化经常性收入超2亿美元,过去一年增长6倍,毛利率约70%,累计融资近17亿美元,估值约70亿美元;2025年8月,公司请来曾参与Uber上市的Francois Chadwick担任首位CFO,员工二级市场卖出股份的窗口已开放一轮,Gomez多次表示IPO「快了」,但公司仍未向监管机构提交招股书。

Gomez越来越像地缘政治意义上的AI发言人。本周,他在《财富》杂志撰文,呼吁各国重视「数字主权」问题,提到Anthropic模型访问权限收紧事件,警告各国不能把未来「租」给少数科技巨头,要建立多元生态,让各国依赖不同AI供应商,保有自己的价值观、语言和法律体系。

他还表示,外界对「AI末日」风险的担忧被夸大,他更担心虚假信息在社交媒体上被自动化放大。Gomez如今关注的不仅是模型本身,还有谁有资格决定全球使用的AI。

Łukasz Kaiser

Kaiser是波兰人,最初学术训练集中在逻辑学、自动机理论、算法模型论和博弈论等理论计算机科学方向:他在弗罗茨瓦夫大学获得数学和计算机科学双硕士学位,在德国亚琛工业大学完成博士学业,随后在法国国家科学研究中心(CNRS)和巴黎七大拥有终身教职,专注于逻辑学和自动机理论的纯理论研究。后来他转向应用,在谷歌大脑工作近八年,期间是TensorFlow的合著者之一,与Samy Bengio合作发表「主动记忆能否取代注意力」的早期论文,与Ilya Sutskever合作发表「神经GPU学习算法」。

按论文作者贡献说明,他和Aidan N. Gomez搭建tensor2tensor框架,提升了实验结果和研究效率。

八位作者中,他是唯一未创业、始终在大型实验室做纯研究的人。2021年他加入OpenAI,当时ChatGPT还未面世。在OpenAI,他参与Codex的研发(后来成为GitHub Copilot的技术基础)以及配套的HumanEval编程基准,也参与GSM8K数学题数据集的研究,这项工作展示了「让模型多算、多采样」可提升准确率,是后来推理模型范式的雏形。

他还是GPT - 4技术报告的署名作者之一,成为OpenAI首个推理模型o1(2024年9月发布)的核心贡献者,被认为是「研究负责人」级别的角色,此后参与o3及更新的推理范式,直到如今的GPT - 5系列。

他最近在Matt Turck主持的MAD Podcast上谈到,Transformer已被数学证明可解决任何问题,只要允许模型生成足够多的中间推理步骤。这是对九年前那篇论文的更精确注解。

Illia Polosukhin

Polosukhin来自乌克兰哈尔科夫,本科学应用数学,是国际大学生程序设计竞赛(ICPC)冠军选手。他回忆,十岁看《黑客帝国》后,就对人工智能产生浓厚兴趣。2014年,他加入谷歌,参与TensorFlow相关研究,也从事机器阅读理解和问答系统方面的研究。

按论文作者贡献说明,他与Ashish Vaswani一起设计并实现最初的Transformer模型,负责验证架构在机器翻译任务上的有效性。

论文发表后,2017年他离开谷歌,与Alexander Skidanov共同创办人工智能公司NEAR.AI。不久他们发现,做去中心化基础设施更有趣,于是2018年前后公司转型为区块链项目NEAR Protocol。NEAR采用Nightshade分片技术,通过Aurora提供与以太坊兼容的二层网络,2020年主网正式上线,已从a16z、Coinbase、老虎环球基金、Hashed、Dragonfly Capital等机构融资超5.3亿美元。

如今的Polosukhin试图融合自己的两个身份:2026年3月,他表示「区块链未来的用户将是AI智能体,而非人类」,将NEAR定位为智能体经济的「结算层」。同年4月,他呼吁建立更完善的监管框架应对自主AI智能体,认为现有机构和制度未准备好处理责任归属和系统性风险问题,呼吁建立清晰的问责机制和「人在回路」式的监督。

他目前常驻葡萄牙。能同时拥有「写了奠基性LLM论文」和「经营市值数十亿美元区块链公司」两个身份的人,全世界可能只有他一个。

八条路,继续探索

2024年3月,英伟达GTC大会上,八位作者中的七位(Niki Parmar因故缺席)首次以群体身份亮相,接受黄仁勋访谈。黄仁勋说:「我们今天享受的一切,都能追溯到那一刻。」对话结束时,他给每人送上一块刻着「你们改变了世界(You transformed the world)」的英伟达DGX - 1超算签名纪念牌。同年11月,日本NEC C&C;基金会将当年的C&C;奖颁给「Transformer团队」,与他们同台领奖的是三位研究跨洋海底光缆传输技术的资深工程师。不同领域的基础设施建设者,被放在同一个奖项里。

九年过去,这八条人生轨迹已分散到几乎不会相交的地方:硅谷的企业服务赛道,东京的演化算法实验室,柏林的分子生物学公司,葡萄牙的区块链协议,以及本周仍在变动的几家头部AI实验室。

但如果把他们的话放在一起,会发现一个共同观点:没有人认为Transformer是终点。Aidan N. Gomez说世界需要更好的架构;Llion Jones认为新架构必须「明显地、毫无疑问地更好」才能取代Transformer;Łukasz Kaiser用数学语言探索这套九年前诞生的架构能将人类带多远。

这或许是论文留下的最持久遗产:八位作者虽散落各地,但都未停止寻找下一个答案。

http://www.jsqmd.com/news/1086068/

相关文章:

  • 关于引导泛二次元文化生态系统性重构与价值转型的提案
  • 从0和1到绚丽画面:揭秘CPU、GPU与显示屏的协同成像之旅
  • Autodock实战指南:在Windows10上从零搭建分子对接环境
  • 巧用Nginx proxy_set_header:根治Origin头引发的反向代理403跨域难题
  • 3分钟快速指南:为Windows系统安装macOS风格鼠标指针终极美化方案
  • 联发科 (MTK) Sensor Bring Up 实战:从驱动集成到问题排查
  • 从Multisim到KiCad:三例经典运放电路的仿真实战与模型解析
  • 终极指南:5分钟搞定微信语音转换,silk-v3-decoder让特殊音频格式不再困扰
  • 2026年置信新材如何在新材料领域崭露头角
  • 终极植物大战僵尸修改器PVZ Toolkit:如何轻松解锁无限阳光与金币
  • Kali Linux与Ngrok构建安卓远程控制测试环境实战指南
  • I3C总线协议详解:CCC命令、寄存器配置与RA8T2实战指南
  • 如何用LeagueAkari提升英雄联盟游戏体验:智能辅助工具完整使用指南
  • Apollo决策规划实战解析:多障碍物场景下的施工绕行策略优化
  • AI 视频 | Pika 1.0 全面开放实测:五大核心功能深度解析与创作实战
  • Linux系统下Matlab R2021b的完整部署与桌面集成指南
  • 【iStoreOS】从入门到精通:一个为国内用户深度优化的OpenWRT固件体验
  • 从局部到全局:NL-means算法如何革新图像去噪
  • 解放双手,专注策略:D3KeyHelper暗黑3智能鼠标宏工具深度解析
  • 【labelme实战】从零到一:高效完成小麦倒伏目标检测数据标注
  • 瑞萨RA2L2开发板快速上手指南:从环境搭建到调试实战
  • 从脚本到模型:MATLAB驱动HFSS实现天线参数化设计与自动仿真
  • 数据结构笔记——堆排序和归并排序
  • 从数据本质到代码实践:深度解析Arduino串口通信中Serial.print()与Serial.write()的底层逻辑与格式转换陷阱
  • 人工智能通识课程知识模块2:职业场景数据处理实操
  • 【组合数学】从二项式定理到帕斯卡三角:三大递推恒等式的直观证明与应用场景
  • 2026最新整理:AI自习室和普通自习室到底有哪些核心区别
  • CogVLM深度解析:多模态大模型的深度融合架构与工程实践
  • 镜子是门艺术:镜子,你知道哪些?
  • 从均匀到优先:经验回放采样策略的演进与高效实现