当前位置: 首页 > news >正文

谷歌Gemini联席负责人跳槽OpenAI,AI人才争夺战再升级!

知名Transformer作者,在谷歌工作近18年

如果从生成式AI的发展史来看,Noam Shazeer几乎参与了每一个关键节点。他于2000年加入谷歌,先后担任软件工程师和首席软件工程师,累计工作超过18年。2017年,他与Ashish Vaswani、Jakob Uszkoreit等8位谷歌研究员共同发表经典论文《Attention Is All You Need》,提出Transformer架构。相比此前主流的RNN和LSTM模型,Transformer能够更高效地处理长文本,并具备更强的扩展能力。过去几年,无论是OpenAI的GPT系列、谷歌Gemini、Anthropic Claude,还是DeepSeek、Llama等模型,底层几乎都建立在Transformer架构之上。换句话说,今天这场席卷全球的大模型浪潮,很大程度上都建立在这篇论文奠定的技术基础之上。不过,Transformer只是Noam Shazeer众多代表作中的一个。在谷歌任职期间,他还参与推动了多项影响深远的大模型技术。2017年,他作为第一作者提出稀疏门控混合专家(MoE)架构,为后来的GPT - 4、Gemini、DeepSeek - V3等模型提供了重要技术思路;2018年,他又参与开发Mesh TensorFlow,为超大规模Transformer训练提供基础工具;此后,他还参与T5模型以及谷歌对话模型LaMDA等多个关键项目研发。

从谷歌离职创业,又被182亿买回

2021年,Shazeer离开谷歌,与Daniel De Freitas共同创办Character.AI。当时,大语言模型尚未迎来ChatGPT时刻,但Character.AI已经率先尝试将聊天机器人产品推向大众市场,并迅速积累大量用户。2024年,谷歌以约27亿美元(约合人民币182.66亿元)的合作交易重新将Shazeer及其核心团队纳入DeepMind体系。随后,他成为Gemini项目的重要负责人之一,并参与Gemini新一代模型的预训练工作。Shazeer回归的时间点,正值谷歌AI业务承受巨大压力。彼时ChatGPT爆火,Gemini仍处于追赶阶段。重返DeepMind后,Shazeer参与模型研发,并最终出任Gemini联席负责人,成为谷歌AI技术领军人物之一。此后,Gemini 3系列模型在编程、推理等多个基准测试中跻身行业前列,成为谷歌与OpenAI、Anthropic竞争的重要筹码。从谷歌研究员,到创业者,再到Gemini联席负责人,Shazeer几乎见证了谷歌近十年来AI发展的每一次重要转折。因此,此次离开谷歌加入OpenAI,也被不少业内人士视为谷歌近年来最重要的人才流失事件之一。

OpenAI的人才争夺战还在升级

Shazeer加盟的背景,是AI行业愈发激烈的人才竞争。过去一年里,OpenAI与Anthropic之间的竞争持续升温。双方不仅围绕模型能力展开较量,也在不断争夺顶级研究员和核心工程师。英国《金融时报》报道称,OpenAI内部将Shazeer的加入视为一次重要补强。未来他将重点研究Transformer之后的新架构方向,以及如何进一步提升模型能力。值得注意的是,Transformer已经统治AI领域近十年。随着推理模型、多智能体系统以及世界模型的发展,越来越多研究人员开始思考:Transformer是否会迎来下一次重大架构升级?而Shazeer恰恰是最有资格回答这个问题的人之一。对于谷歌而言,这意味着失去了一位Transformer作者、Gemini联席负责人以及最资深的AI架构设计者之一。对于OpenAI而言,其实验室则迎来了一位曾亲手塑造现代AI技术栈的人。

结语:Transformer时代重要人才流动

随着技术逐渐逼近前沿,顶级研究员本身也成为最稀缺的资源之一。Noam Shazeer的职业轨迹,几乎串联起了Transformer、Character.AI、Gemini和OpenAI四个重要节点。如今,这位Transformer作者离开谷歌、加入OpenAI,既是一场人才流动,也折射出当下AI巨头之间愈发激烈的竞争态势。尤其是在OpenAI与Anthropic围绕下一代模型、企业市场和顶级研究人才展开白热化竞争的当下,谷歌也正通过Gemini持续追赶。此时失去一位Transformer奠基人和Gemini联席负责人,对谷歌而言无疑是一笔不小的损失。对于整个行业来说,后续值得关注的问题或许是:当Transformer作者亲自研究“Transformer之后的架构”时,下一代AI模型会走向何方。

http://www.jsqmd.com/news/1040247/

相关文章:

  • 嵌入式网络开发实战:RTCS协议栈核心数据结构解析与应用
  • 从emlog模板上传漏洞CNVD-2023-74536剖析文件上传安全审计方法论
  • 深度解析银狐木马攻击链:从社工投递到白利用的防御实战
  • 77:新项目建厂新机批量导入完整EAP工作内容
  • 如何用AutoUnipus快速完成U校园网课:2025年完整自动化指南
  • 高速MOSFET驱动器MCP14E9选型、设计与调试全解析
  • 选购停经架哪家性价比高?常新是优选 - mypinpai
  • 从CVE-2022-23366漏洞修复实战,详解SQL注入防御全链路策略
  • Claude Opus 4.7模型幻觉实测:指令遵循退化与事实锚定危机
  • 太空天书的破译者:卫星制造翻译的技术与艺术
  • Gemma 2开源大模型技术解析:轻量级、可商用、强合规的工程实践指南
  • 车载信息娱乐系统(IVI)网络安全实战:从架构设计到渗透测试
  • RayScan开箱即用的 Web 漏洞扫描器 | SQL注入 / XSS / 命令注入 / LFI / SSRF / XXE / RCE / API安全
  • 基于Playwright网络监听的高效数据采集方案:告别DOM解析,直击API源头
  • GPT-4o生产级压测实录:Token计算、系统指纹与语义稳定性深度解析
  • 【FDTD+UPML+全场/散射场】具有TF/SF接口和UPML吸收边界的2D FDTD研究(Matlab代码实现)
  • Java安全随机数生成:从Random到SecureRandom的实战指南
  • STM8L15x开发板实测DS18B20温度采集工程(IAR环境,含完整驱动与调试脚本)
  • kafka源码-@KafkaListener消费端的poll调用逻辑
  • 洛雪音乐音源终极指南:5分钟打造你的免费高品质音乐库
  • 2026年诚信的江阴不锈钢管/航空航天管/江苏316H电站锅炉管批量采购厂家推荐 - 行业平台推荐
  • 基于python农产品销售数据分析可视化系统销量数据分析1(设计源文件+万字报告+讲解)(支持资料、图片参考_降重降ai)
  • Qwen3.5原生多模态智能体架构解析与工程落地指南
  • 3分钟学会:Windows上最轻量的安卓APK安装工具完全指南
  • 常见问题解决 --- trae的mcp服务不可用
  • OA与CMS系统漏洞挖掘:从权限边界突破到实战提权
  • TC820双斜积分ADC:从原理到3位半数字电压表设计实战
  • GeekAI会话安全深度剖析:从令牌管理到端到端加密的实战加固方案
  • 豆包智能感从何而来:五层能力涌现机制解析
  • 2026年可靠的家用调味一烤竹盐/四川富硒一烤竹盐/四川高温煅烧一烤竹盐/益鼎天养一烤竹盐可靠供应商推荐 - 行业平台推荐