当前位置: 首页 > news >正文

从1943年McCulloch-Pitts神经元到2024年Transformer,深度学习如何完成从“死刑“到“统治世界“的惊天逆转

从1943年McCulloch-Pitts神经元到2024年Transformer,深度学习如何完成从"死刑"到"统治世界"的惊天逆转


痛点:为什么深度学习能活下来?

2012年之前,深度学习在学术界是个"笑柄"。

Geoffrey Hinton在2006年提出深度信念网络时,审稿人说这是"过时的技术"。Yann LeCun在1998年用LeNet-5做手写数字识别时,评审专家说卷积神经网络"没有理论支撑"。

更讽刺的是,1969年Minsky和Papert在《感知机》一书中,用数学证明单层感知机连异或(XOR)都解不出来——这本被奉为经典的书,直接宣判了神经网络的"死刑"。

但今天呢?

2024年,Transformer架构统治了所有主流大模型。ChatGPT、Claude、Gemini、DeepSeek,这些名字背后都是神经网络。OpenAI估值1570亿美元,Anthropic融资23亿美元,Google的Gemini月活用户超过5亿。

80年,从死刑到统治世界。

这不是技术胜利的故事。这是人心决定技术命运的故事。


一、1943-1958:神经元的诞生与感知机的黄金时代

1.1 McCulloch-Pitts神经元:用数学描述大脑

1943年,Warren McCulloch和Walter Pitts在《数学生物物理学公报》发表论文《神经活动中内在思想的逻辑演算》。

这篇论文做了一件前无古人的事:用数学公式描述神经元

他们的模型极其简单:

  • 输入信号通过突触传递
  • 每个突触有权重(兴奋或抑制)
  • 神经元对加权求和,超过阈值就"放电"

用今天的代码写出来就是:

defmcculloch_pitts_neuron(inputs,weights,threshold):"""McCulloch-Pitts神经元模型"""weighted_sum=sum(x*wforx,winzip(inputs,weights))return1ifweighted_sum>=thresholdelse0

这个模型的意义不在于它有多复杂——事实上它比今天的神经元简单得多——而在于它第一次用数学语言描述了信息处理的基本单元

历史背景

  • Warren McCulloch:神经生理学家,研究大脑如何工作
  • Walter Pitts:19岁的数学天才,自学者
  • 两人合作是跨学科的典范

1.2 Frank Rosenblatt与感知机的诞生

1957年,Frank Rosenblatt在康奈尔航空实验室提出了"感知机"(Perceptron)。

感知机是McCulloch-Pitts神经元的工程化版本:

  • 可以学习权重(通过误差修正规则)
  • 可以处理二维图像输入
  • 可以分类线性可分的数据

感知机的学习规则

defperceptron_update(inputs,target,weights,learning_rate=0.1):"""感知机权重更新规则"""prediction=mcculloch_pitts_neuron(inputs,weights,threshold=0)error=target-prediction# 只有预测错误时才更新iferror!=0:weights=[w+learning_rate*error*xforw,xinzip(weights,inputs)]returnweights

1958年,Rosenblatt在《纽约时报》的头条报道中被称为"电子计算机的雏形"。当时的预言是:

“未来十年内,机器将能够识别物体、翻译语言、甚至进行创造性思考。”

这是神经网络的第一次高光时刻。

1.3 感知机的硬件实现:Mark I Perceptron

1959年,Rosenblatt建造了世界上第一台神经网络硬件——Mark I Perceptron。

硬件规格

  • 输入:20×20光电传感器阵列(400个输入)
  • 权重:可调节的电位器(约1000个)
  • 输出:8种分类
  • 训练:通过电机自动调整权重

意义:这是第一个"会学习"的机器。

照片描述:Mark I Perceptron看起来像一个巨大的金属盒子,前面有网格状的传感器,后面有密密麻麻的电线和电位器。Rosenblatt称它为"胚胎式的电子计算机"。


二、1969-1986:感知机危机与AI寒冬

2.1 《感知机》:一本宣判死刑的书

1969年,Marvin Minsky和Seymour Papert出版了《感知机:计算几何学导论》。

这本书用严格的数学证明了一个简单但致命的事实:

单层感知机无法解决线性不可分问题。

最经典的例子就是异或(XOR):

x1x2x1 XOR x2
000
011
101
110

用几何语言说,XOR的四个点在二维平面上无法用一条直线分开。

数学证明的核心

单层感知机的决策边界是线性的:

w1x1+w2x2+b=0w_1 x_1 + w_2 x_2 + b = 0w1x1+w2x2+b=0

对于XOR问题,正类点(0,1)和(1,0)被负类点(0,0)和(1,1)分隔,不存在一条直线能正确分类。

Minsky和Papert的结论很明确:

“感知机的局限性是根本性的,无法通过简单的扩展来解决。”

但他们错了——多层感知机可以解决XOR问题!

2.2 AI寒冬:资金断崖式下跌

这本书的影响是灾难性的。

1970年代,美国政府和学术界对AI的投资大幅削减。Lighthill报告(1973)直接批评AI未能兑现承诺,导致英国政府几乎完全停止AI资助。

神经网络研究陷入低谷,持续了整整15年。

这段时期被称为"AI寒冬"(AI Winter)。许多研究者转行去了其他领域,硬件公司倒闭,项目被取消。

但寒冬中,有人还在坚持。

2.3 寒冬中的坚持者

Paul Werbos(1974)

在哈佛大学博士论文中提出了反向传播的思想,但被忽视。他的论文《超越回归:多阶段自适应网络》直到1980年代才被重新发现。

David Rumelhart(1980s)

认知心理学家,研究人类如何学习。他意识到反向传播可能是理解人类学习的关键。

Geoffrey Hinton(1980s)

在卡内基梅隆大学和剑桥大学坚持研究神经网络。他后来回忆说:

“在那个年代,研究神经网络几乎意味着职业生涯的终结。但我相信这是正确的方向。”

这些人的坚持,为1986年的复兴埋下了种子。


三、1986-1998:反向传播的复兴与LeNet的崛起

3.1 反向传播:破解多层网络的关键

1986年,David Rumelhart、Geoffrey Hinton和Ronald Williams在《自然》发表论文,重新发现了反向传播算法(Backpropagation)。

反向传播的核心思想很简单:

  1. 前向传播:输入通过网络,得到输出
  2. 计算误差:输出与真实标签的差异
  3. 反向传播:从输出层向输入层传播误差,计算梯度
  4. 权重更新:沿梯度下降方向调整权重

用数学表达就是:

∂E∂wij=δj⋅ai\frac{\partial E}{\partial w_{ij}} = \delta_j \cdot a_iwijE=δjai

其中:

  • EEE是误差函数
  • wijw_{ij}wij是从神经元iii到神经元jjj的权重
  • δj\delta_jδj是神经元jjj的误差项
  • aia_iai是神经元iii的激活值

这个公式的价值在于:它让多层神经网络可以训练了。

http://www.jsqmd.com/news/834004/

相关文章:

  • ChatGPT API密钥安全使用指南:从风险规避到工程实践
  • 从零开始掌握yuzu模拟器:在PC上畅玩任天堂Switch游戏的完整指南
  • AcFunDown:5分钟学会A站视频下载的终极完整指南
  • 告别Python依赖!手把手教你用C++复现Librosa的Mel频谱和MFCC特征提取
  • 解密智能macOS软件管家:Applite如何用可视化界面颠覆Homebrew体验
  • 生成式 AI 驱动职场钓鱼攻击演化机理与防御体系研究
  • 【实战解析】Autoencoder异常检测:从原理到工业风控场景的代码实现
  • 超声图像存储:技术、标准与实践指南
  • 高效通达信数据解析利器:mootdx完整实战指南与量化开发应用
  • Go语言集成大模型:natexcvi/go-llm框架实践指南
  • 3分钟上手Translumo:游戏玩家的实时屏幕翻译神器
  • 暗黑3鼠标宏终极指南:D3KeyHelper 5步配置法快速上手
  • 什么是卷积:翻转→滑动→相乘→求和,一文讲透卷积的本质,从数学公式到CNN核心,为什么“翻转“才是卷积的灵魂
  • 实战解析pdfplumber:从PDF表格智能提取到自动化Excel报表生成
  • R3nzSkin英雄联盟换肤终极教程:免费安全使用全皮肤指南
  • Hitboxer:颠覆性键盘映射工具,彻底解决游戏输入冲突的终极方案
  • 信息安全工程师-操作系统安全通用基础与七大核心机制
  • 5大优势解析:如何高效使用免费离线OCR工具
  • 如何将知识星球付费内容转换为个人PDF电子书:终极指南
  • 告别Quartus II环境变量和DLL噩梦:一份给DE2-115/DE10-Standard用户的终极配置清单
  • 别再让Token过期毁了你的报表!Ruoyi-Vue 3.8.1集成JimuReport 1.5.2的权限控制实战
  • gprMax 3.0仿真结果可视化进阶:在PyCharm里用Matplotlib绘制A扫、B扫及波形堆叠图的避坑指南
  • 快速入门AICoverGen:零门槛制作专业级AI翻唱的完整免费教程
  • Windows 11 LTSC系统安装微软商店的3步终极方案:告别应用荒的完整指南
  • 【智能解决方案】KMS_VL_ALL_AIO激活工具:Windows与Office永久激活的终极指南
  • 终极跨平台漫画阅读方案:nhentai-cross全平台使用指南
  • 如何轻松管理英雄联盟回放文件:ROFL-Player完整使用指南
  • Swagger2Word实战指南:企业级API文档自动化生成解决方案
  • D3D8to9终极指南:3步让经典老游戏在现代Windows上完美运行!
  • 滑动窗口算法:双指针高效解题秘籍