当前位置: 首页 > news >正文

71万次引用、ResNet之父、MIT终身教授:何恺明的AI封神之路

何恺明:从高考状元到AI传奇,他的ResNet改写了人工智能史

“这显示了全球范围内都存在着杰出的科学家,并且创新的灵感可以源自世界的任何一个角落。”——杨立昆(Yann LeCun),深度学习三巨头之一,如此评价何恺明和ResNet的成就。

前言

在人工智能的编年史上,有些名字注定被铭记。

何恺明,就是这样一个名字。

2025年,Nature杂志公布21世纪以来引用次数最多的25篇论文,排名第一的不是诺贝尔奖得主的科学发现,不是基因编辑的革命性突破,而是一篇关于图像识别的AI论文——《Deep Residual Learning for Image Recognition》。

这篇论文的第一作者,正是何恺明。

截至2025年,何恺明的Google Scholar总引用量已超过71万次,其中ResNet单篇论文被引超过28万次,是计算机视觉乃至整个深度学习领域被引用次数最多的论文。

从2009年成为CVPR最佳论文首位华人得主,到2016年ResNet横扫ImageNet竞赛,再到2023年获得未来科学大奖、2025年当选美国国家人工智能科学院院士——何恺明用20年时间,完成了从清华物理系本科生到MIT终身教授、谷歌DeepMind杰出科学家的华丽转身。

本文将从何恺明的学术起点出发,深度解析这位AI传奇的成长轨迹、核心贡献与深远影响。


第一章:少年天才——从高考状元到清华物理系

1984年,何恺明出生于广东广州。

从小在广州长大的他,在广州市执信中学就读期间就展现出过人的天赋——获得全国物理竞赛一等奖、广东省化学竞赛一等奖。

2003年5月,凭借全国物理竞赛一等奖,何恺明被保送至清华大学机械工程及自动化专业。但这位少年并没有安于现状——他选择继续参加高考,最终以标准分900分的成绩成为当年广东省9位满分状元之一。

进入清华大学后,何恺明做出了一个改变人生轨迹的决定:放弃原本保送的专业,转而选择基础科学班。这个被誉为清华“最牛班级”的试验班,旨在培养基础科学领域的拔尖人才。

在清华的四年里,何恺明连续三年获得清华奖学金,打下了扎实的数学和物理基础。这些看似与计算机视觉无关的训练,却为他日后提出ResNet的核心思想埋下了伏笔——物理学的直觉和数学的严谨,让他能够穿透表象,抓住问题的本质

2007年,何恺明从清华物理系毕业。同年,他进入香港中文大学攻读研究生,师从汤晓鸥——这位后来被称为“将香港中文大学建成中国计算机视觉界黄埔军校”的学者。

第二章:一战成名——首位华人CVPR最佳论文得主

2009年,计算机视觉顶级会议CVPR在美国迈阿密举行。

一篇题为《Single Image Haze Removal Using Dark Channel Prior》(基于暗原色的单一图像去雾技术)的论文,获得了当年的CVPR最佳论文奖

这是CVPR自创办25年以来,首次有华人乃至亚洲学者获得这一殊荣。论文的第一作者,正是当时还是博士研究生的何恺明。

这篇论文提出了一种基于“暗通道先验”的图像去雾算法,能够从单张图像中有效去除雾霾的影响,恢复出清晰的图像。这个想法简单而深刻——何恺明发现,在大多数无雾图像中,至少有一个颜色通道在某些像素点上的值非常低。利用这一统计规律,就可以估算出雾的浓度并进行有效去除。

这篇论文展现了何恺明研究风格的最初雏形:用最简单的方法解决最本质的问题。这种“简单和本质”的原则,后来贯穿了他整个学术生涯。

第三章:ResNet诞生——改写了深度学习的历史

2015年,何恺明在微软亚洲研究院工作期间,带领团队提出了深度残差网络(ResNet)

当时,深度学习领域面临一个棘手的问题:随着网络层数的增加,模型的性能不仅没有提升,反而会下降。这就是著名的网络退化问题。许多人认为,这是因为网络越深越难训练,梯度消失问题无法解决。

但何恺明和他的团队给出了一个出人意料的答案:不是网络太深没法训练,而是网络太深“学不动”了

他们的解决方案异常简洁:在网络的每一层引入一个“直连通道”,让输入可以直接“跳跃”到输出。这样一来,网络需要学习的就不再是完整的映射,而是输入与输出之间的“残差”。

这个想法看似简单,却蕴含着深刻的洞察:与其让网络学习一个复杂的完整映射,不如让它学习一个简单的“差值”

2015年底,ResNet论文作为预印本发布。2016年,论文正式发表,并再次获得CVPR最佳论文奖。

ResNet的表现惊艳了整个AI界:

  • 在ImageNet图像识别大赛中,ResNet-152以152层的深度击败了谷歌、英特尔、高通等业界团队,斩获第一名;
  • ResNet解决了深度网络的梯度传递问题,使得研究人员可以训练超过150层的神经网络,比此前常用的网络层数多5倍以上;
  • 在ResNet之前,“深度学习”并没有那么“深”。

何恺明自己曾这样总结:“在ResNet之前,深度学习并没有那么‘深’。”

第四章:ResNet的深远影响——重新定义深度学习的边界

ResNet的影响力,早已超越了计算机视觉的范畴。

🧬 AlphaGo & AlphaFold

DeepMind的AlphaGo Zero和AlphaFold都使用了ResNet作为核心网络架构。残差连接让这些模型能够达到前所未有的深度和性能。

🤖 ChatGPT & GPT系列

今天的大语言模型,无论是GPT系列还是BERT,都普遍采用了残差结构来支撑上百层Transformer的堆叠。可以说,没有ResNet,就没有今天的大模型时代。

📊 数据说话

截至2025年,ResNet论文在Google Scholar上的引用量已超过28万次。Nature杂志的统计分析显示,这是21世纪被引用次数最多的论文

🌍 全球认可

2023年,何恺明与张祥雨、任少卿、孙剑共同获得未来科学大奖数学与计算机科学奖,共享100万美元奖金。这是未来科学大奖首次将数学与计算机科学奖颁给四位获奖人,何恺明也成为该奖历史上最年轻的获奖者之一。

2025年,何恺明当选美国国家人工智能科学院院士

同年,他十年前发表的另一篇论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》被授予Helmholtz Prize——这是一个被视为“十年影响力奖”的荣誉,只颁给十年前的ICCV论文中被时间验证对计算机视觉领域产生“基础性、深远影响”的工作。

第五章:杨立昆的高度评价——“灵感可以源自世界的任何一个角落”

对于何恺明和ResNet的成就,深度学习三巨头之一的**杨立昆(Yann LeCun)**曾给予高度评价。

杨立昆在采访中表示:

“这显示了全球范围内都存在着杰出的科学家,并且创新的灵感可以源自世界的任何一个角落。”

这句话分量极重。作为卷积神经网络(CNN)的奠基人之一,杨立昆深知ResNet对于整个深度学习领域的意义。他的评价不仅是对何恺明个人能力的认可,更是对全球AI研究格局的深刻洞察——顶尖的创新,不再只属于硅谷

另一位AI教父**杰弗里·辛顿(Geoff Hinton)**也曾在不同场合表达对何恺明工作的赞赏。辛顿指出,AI领域的论文在引用方面具有天然优势,但ResNet的引用量能够达到如此高度,证明了其在AI发展中的基石地位。

第六章:持续创新——从Mask R-CNN到MAE

ResNet之后,何恺明并没有停下脚步。

在Facebook AI Research(FAIR)工作期间,他带领团队又推出了一系列开创性工作:

🎭 Mask R-CNN(2017)

Mask R-CNN解决了图片中的实例级对象分割问题——不仅能检测出照片中的人、动物等对象,还能为每个对象实例生成高质量的分割遮罩。这项研究获得了ICCV 2017最佳论文奖(马尔奖)

🔍 SimCLR(2020)

SimCLR是一种简单有效的对比学习框架,大幅提升了无监督学习的性能,让模型不需要大量标注数据就能学到有用的特征表示。

🎨 MAE(2021)

2021年11月,何恺明以一作身份发表论文《Masked Autoencoders Are Scalable Vision Learners》,提出了一种泛化性能良好的计算机视觉识别模型。MAE将“掩码”思想引入视觉领域,与同期的大语言模型预训练思路不谋而合,刚刚发表就成为计算机视觉圈的热门话题。

第七章:学术回归与新的征程

2023年,何恺明做出一个重要决定:从产业界回归学术界。

他于2024年2月加入麻省理工学院(MIT)电子工程与计算机科学系,担任副教授。一年后,也就是2025年6月,他获得MIT终身教职

这标志着何恺明完成了从“产业界明星”到“学术殿堂学者”的身份转变。在MIT,他开设的课程广受学生欢迎,继续培养下一代AI人才。

2025年6月,何恺明的最新动向再次引发关注:他以“兼职杰出科学家”的身份加入谷歌DeepMind

事实上,何恺明与谷歌的合作早有伏笔。2025年2月,他与谷歌DeepMind全华人班底合作发表了论文《Fractal Generative Models(分形生成模型)》,首次使逐像素生成高分辨率图像成为可能。此前,他与谷歌团队还合作提出了基于连续标记的随机顺序自回归模型Fluid,为自回归文生图模型的扩展指出了新方向。

从微软亚洲研究院到Facebook AI Research,从MIT到谷歌DeepMind——何恺明的每一次转身,都牵引着整个AI界的目光。

您说得完全正确,这是一个重要的事实错误。我已经将第八章“科研哲学——‘简单和本质’”中的相关表述修正如下:


第八章:科研哲学——“简单和本质”

纵观何恺明的学术生涯,一条清晰的脉络贯穿始终:追求“简单和本质”

这一哲学,源自他在微软亚洲研究院期间的导师孙剑的深刻影响。孙剑始终强调“简单和本质”的研究原则,这一理念深深植根于何恺明的科研实践中,并贯穿于ResNet等一系列开创性工作。

何恺明的同事、同样师从孙剑的张祥雨曾在获得未来科学大奖时这样回忆导师的影响:

“我在微软的两位导师,何恺明和孙剑给我指导很多,他始终让我们坚持的一个原则是:简单和本质。这也能够让我们在一堆貌似正确的路线中,很幸运的找到了正确的那条路……”

这种理念体现在何恺明的每一篇重要论文中:

  • 暗通道去雾:用一个简单的统计规律解决复杂的去雾问题;
  • ResNet:用一个简洁的“残差”思想突破深度网络的训练瓶颈;
  • MAE:用一个直观的“掩码”思路统一视觉与语言的预训练范式。

李沐曾说过一句广为流传的话:“假设你在使用卷积神经网络,有一半的可能性就是在使用ResNet或它的变种。”这种影响力,正是源于ResNet的简单——因为它足够简单,所以易于理解、易于使用、易于扩展。

何恺明的论文还有一个显著特点:简明易读。即使是具有开创性的工作,他也总是用最直观的方式解释自己的“简单”想法,不使用trick,也没有不必要的证明。

第九章:人物印象——AI圈的“低调大神”

在AI圈,何恺明有一个广为人知的形象:低调、务实、纯粹

他每年只产出少量一作文章,但每一篇都一定是重量级的,几乎没有例外。这种“少而精”的研究风格,在追求论文数量的学术界显得尤为珍贵。

他很少接受媒体采访,很少在社交平台发声。公众对他的了解,更多来自论文作者名单上那个熟悉的名字,或是学术会议上那个低调的身影。

但了解他的人都知道,何恺明对待研究的态度极其严谨。他会花费大量时间反复推敲一个想法的本质,直到找到最简洁、最优雅的解决方案。

一位与何恺明共事过的研究者曾这样评价:“他是那种会把一个问题想得极其透彻才开始动手的人。一旦动手,基本就是正确的方向。”


尾声:AI传奇仍在继续

从2009年成为首位华人CVPR最佳论文得主,到2015年提出改写AI历史的ResNet;
从2023年获得未来科学大奖,到2025年成为MIT终身教授、谷歌DeepMind杰出科学家——

何恺明用20年时间,完成了一段AI界的传奇旅程。

他的ResNet,是21世纪被引用次数最多的论文;
他的学术总引用,超过71万次;
他的研究工作,贯穿了计算机视觉与深度学习发展的黄金时代。

但对于何恺明来说,这一切可能只是开始。

在2025年的一次分享中,他提出了一个耐人寻味的问题:“生成建模有没有可能也走向端到端?”

这个问题,或许正是他接下来要攻克的下一座山峰。

正如杨立昆所言,创新的灵感可以源自世界的任何一个角落。而何恺明,正在用自己的方式证明——真正的创新,源于对“简单和本质”的不懈追求。


📌 写在最后

何恺明的故事,是一个关于天才、坚持与纯粹的故事。

他是高考状元,却选择了一条少有人走的路;
他是CVPR首位华人最佳论文得主,却从未停止探索;
他是ResNet之父,却依然在寻找AI的下一个突破口。

他的经历告诉我们:伟大的创新,往往源于最简单、最本质的思考。

而这,或许就是何恺明留给AI界最宝贵的财富。

http://www.jsqmd.com/news/554273/

相关文章:

  • 原神抽卡数据分析终极指南:如何用genshin-wish-export轻松掌握你的抽卡命运
  • 2026年西安靠谱的新中式婚纱摄影品牌,想去云南拍旅拍的看过来 - 工业品牌热点
  • GLM-4V-9B Streamlit交互设计解析:侧边栏上传+实时渲染+历史回溯实现
  • CosyVoice3效果实测:18种中国方言语音生成,情感表达精准
  • 为什么你的脑影像分析总出错?聊聊AC-PC线标准化背后的原理与MIPAV实现
  • Unity3D InputSystem实战:如何用事件驱动实现角色平滑移动(附完整代码)
  • 跨平台视频查重神器:Czkawka/Krokiet 3步搞定重复视频清理
  • ICP算法实战:从Point-to-Plane到VGICP,5种点云配准方法性能对比(附Python代码)
  • 实战分享!DeepSeek-R1-Distill-Qwen-1.5B非GPU环境搭建心得
  • 解锁课程论文新姿势:书匠策AI——你的学术写作超级引擎!
  • OpenClaw跨平台实战:Windows与Mac共用GLM-4.7-Flash服务
  • 从提示词到成图:雯雯的后宫-造相Z-Image-瑜伽女孩真实案例分享(含新月式示例)
  • 避坑指南:Webots 2022a在Windows安装后,为什么打不开示例项目?手把手教你排查与修复
  • 用 DrissionPage 进阶网页 RPA:从新闻列表批量抓取到结构化数据入库
  • goenv实战指南:轻松管理多版本Go开发环境
  • 计算机组成原理知识辅助学习:利用AI模型生成个性化习题与解答
  • STM32CubeMX与Git版本控制实战:如何高效管理自动生成代码与自定义逻辑
  • 深入解析DWARF栈回溯:从eh_frame到寄存器恢复
  • Windows驱动程序存储深度解析:DriverStore Explorer的技术架构与实战指南
  • G-Helper:让华硕笔记本性能释放的轻量级硬件控制工具
  • 腾讯王者荣耀AI开放环境:强化学习研究的实战平台
  • ICLR 2026 开源 | PAGE-4D:首个VGGT动态场景4D重建框架,速度无损、精度全面SOTA!
  • MiniCPM-o-4.5-nvidia-FlagOS与Claude对比分析:在复杂推理任务上的差异化表现
  • IGBT模块封装工艺:从真空回流焊到高可靠性设计的全流程解析
  • MyBatis动态SQL避坑指南:从<if>到<foreach>,这些细节面试官最爱问
  • R数据可视化进阶|利用Scatterplot3d包打造交互式3D散点图
  • 如何快速制作专业字幕:Subtitle Edit开源工具终极指南
  • 从编译到封装:基于GmSSL 3.x的C++ SM2国密算法实践指南
  • 51单片机红外避障循迹小车实战:从接线到代码调试全流程(附避坑指南)
  • FlowState Lab赋能数字孪生:城市交通流实时仿真与推演系统