当前位置: 首页 > news >正文

人工智能根本不是理科?聊聊这个被误读了70年的“工科怪物”

从第一性原理出发,你会发现AI的底层建筑完全是另一套东西

引子:一次让我陷入沉思的对话

上周和一位数学系的朋友聊天,他说想转行做AI。我问他为什么,他说:“AI不就是数学的应用吗?线性代数、概率论、微积分,我都很熟。”

我沉默了三秒钟,然后说:“兄弟,你可能对AI有什么误解。”

这让我想起自己入行时的天真——以为搞懂了反向传播的公式就掌握了AI。直到我第一次在128张V100上跑崩了一个模型,第一次因为梯度爆炸损失了三天算力,第一次发现论文里的数学推导在工程实现时全是理想假设...

我幡然醒悟:从第一性原理出发,人工智能从来就不是什么理科。

一、第一性原理视角:AI到底在干什么?

什么是第一性原理?就是把问题拆解到最基本的真理,然后从那里开始重新推导。

那么,用第一性原理看理科和工科的区别:

  • 理科的第一性原理:宇宙中存在客观规律,我们要去发现它们。牛顿发现F=ma,爱因斯坦发现E=mc²。这些规律不依赖于人类而存在,我们只是揭开面纱。

  • 工科的第一性原理:我们要创造原本不存在的东西。工程师设计芯片、桥梁、操作系统。这些东西是人类智慧的产物,不是“发现”的。

现在问一个核心问题:Transformer是第一性原理推导出来的吗?

答案显然是否定的。Google团队在写《Attention Is All You Need》的时候,他们不是在推导一个必然成立的数学定理。他们是在做一个工程决策:“我们把循环和卷积都扔掉,只用注意力机制,看看会发生什么。”

这个决策的依据是什么?不是数学证明,而是工程直觉实验观察

所以,从第一性原理出发,AI的底层建筑完全是一套工程架构,而不是数学理论的实现。它和土木工程、机械工程在本质上是一样的——都是在给定的约束下(算力、显存、带宽、数据),设计出能工作的系统。

二、突破来突破去,全都不符合第一性原理

让我们用你的视角,重新审视AI史上的几次重大突破。你会发现一个惊人的共同点:每一次突破都不是从第一性原理出发的,而是从工程需求出发,用试错和暴力手段硬生生趟出来的路。

1. 感知机(1958年)——先造出来再说

发生了什么:罗森布拉特用硬件实现了第一个人工神经网络,能通过“试错”学习识别简单图形。

第一性原理视角:如果从智能的本质出发,你应该先回答“什么是学习”“神经元如何编码信息”这些问题。但罗森布拉特没这么做。他的思维方式是:“我造一个东西出来,让它自己学着干活,看看行不行。”

这就是纯正的工程思维:造出来 > 想明白

后来Minsky用数学证明了感知机连“异或”都解决不了,直接把第一波AI热潮打入了寒冬。但问题是:如果没有罗森布拉特先“造出来”,Minsky会去证明一个不存在的东西吗?

这就是工程的逻辑:先有东西,再有理论。和物理学完全相反。

2. 反向传播(1986年)——拿来主义工程改造

发生了什么:Rumelhart和Hinton让多层神经网络变得可训练了。

第一性原理视角:反向传播的数学原理(链式法则)早在1970年就被提出来了,但那是一个数学工具,不是神经网络的学习算法。Rumelhart和Hinton做的工作是:把这个数学工具拿来,改造它,让它能在神经网络上跑通

他们解决的是一堆工程问题:

  • 梯度消失怎么办?

  • 梯度爆炸怎么办?

  • 如何高效计算大规模矩阵的梯度?

  • 网络结构怎么设计才能让梯度顺利传播?

这些问题,没有哪个是能从第一性原理推导出答案的。全是试出来的

Hinton自己说过一句话,完美诠释了这种工程思维:“是图像让这一切工作,而不是数学。”翻译一下就是:效果说了算,原理可以后面再找补。

3. ImageNet时刻(2012年)——暴力美学的胜利

发生了什么:Alex Krizhevsky用AlexNet在ImageNet上将错误率降低近一半,碾压所有传统算法。

第一性原理视角:AlexNet用的技术(卷积网络+反向传播)十年前就有了。真正的突破是什么?

  • 用GPU暴力加速:为什么用GPU?因为Alex发现自己的游戏显卡跑矩阵乘法飞快。这不是从计算理论推导出来的,是偶然发现

  • 用ReLU激活函数:为什么用ReLU?因为试了一下,发现训练速度快了好几倍。没有理论证明,就是“试出来好用”。

  • 用Dropout防止过拟合:灵感来自“多个模型投票”的集成学习,这是一个纯工程技巧的移植。

这个突破最讽刺的地方是:当时学术界普遍认为深度网络是训练不好的——这甚至有一些理论上的论据支撑。但Alex不管,他直接上手试,结果发现“理论上不行”的东西,工程上就是work了。

这完美诠释了AI的工程本质:当理论和实践冲突时,相信实践。

4. Transformer(2017年)——Attention is All You Need,但Why?

发生了什么:Google团队提出Transformer,抛弃了循环和卷积,只用注意力机制。

第一性原理视角:如果从第一性原理推导语言模型,你会得出“需要循环来处理序列”“需要卷积来捕捉局部模式”这样的结论。但Transformer说:都不要了,就让每个词直接看所有词

这个想法优雅吗?优雅。但它是从第一性原理推导出来的吗?不是。

它来源于一个实际问题:RNN在处理长句子时会遗忘开头的内容。然后Google团队做了一个大胆的工程决策:“我们把循环结构彻底干掉,看看能不能行。”

结果证明能行。但问题是:我们至今还在争论它为什么能行

一个真正的“理科”成果,应该是先有理论,后有实践。而Transformer是先有实践,后找理论——而且理论还没完全找到。这哪里是理科?这是标准的工程范式。

三、AI的底层建筑:完全是一套工程架构

你之前说得非常精准:AI的底层建筑“完完全全就是另一套版本的agent架构建筑”。

让我把这个观点展开。如果我们把一个大模型比作一个“智能体”,它的“建筑蓝图”上画着:

  • 感知模块:怎么把图像、文字转成向量?用ViT还是CLIP?这是一个工程选型

  • 推理核心:Transformer叠多少层?每层多宽?多少个头?这是一个工程设计

  • 记忆模块:上下文窗口开多大?要不要外挂向量数据库?这是一个工程决策

  • 执行模块:怎么调用外部工具、执行代码?这是一个软件集成

每一笔、每一画,工程师想的都不是“这符合哪条数学定理”,而是:

  • “这能并行吗?”——受GPU架构约束

  • “显存够用吗?”——受硬件资源约束

  • “收敛稳定吗?”——受优化算法约束

  • “推理延迟低吗?”——受实时性约束

  • “好部署吗?”——受运维环境约束

这些东西,和写操作系统、设计编译器、搭分布式系统,在本质上没有任何区别。

都是在一堆工程约束下,设计出能工作的系统。数学在这里的角色是什么?是被调用的库——矩阵乘法调cuBLAS,优化调Adam,概率调softmax。

工程师不需要从第一性原理推导这些数学,就像建筑师不需要从烧砖开始学起。

四、为什么这很重要:重新理解AI的“暴力美学”

如果你接受了“AI是工科”这个设定,很多现象就变得可以理解了:

1. 为什么AI有“试错文化”?

理科的典型工作方式是:先推公式,再验证。工科的典型工作方式是:先试一下,不行再改。

AI显然属于后者。ReLU、Dropout、Adam、BatchNorm...这些让深度学习work的关键技术,有几个是推导出来的?几乎全是试出来的

“我觉得这个想法不错,跑一下看看”——这是AI工程师最常说的话。

2. 为什么AI有“暴力美学”?

当原理不清时,理科的做法是:停下来,把原理搞清楚。工科的做法是:堆资源,硬上

GPT-3有1750亿参数,训练成本超过1200万美元。GPT-4据传有1.8万亿参数,训练成本过亿。

这优雅吗?不。但有效。

从第一性原理来看,这简直是“愚蠢”的——因为你在用蛮力代替智慧。但问题是:它work了。而且随着规模增大,效果越来越好。这就是所谓的Scaling Law——它不是一条数学定理,它是一个被工程实践发现的经验规律

3. 为什么AI理论总是滞后于实践?

物理学是理论走在前面(爱因斯坦先推导出相对论,后来才被实验证实)。AI是实践走在前面——模型先跑通了,论文先发表了,然后大家才开始想“它为什么能工作”。

这不是AI的缺陷,这是它的本质特征。因为它是一个工程学科,不是科学学科

工程师的任务不是理解世界,而是改造世界。理解可以等一等,但产品不能等。

五、结语:拥抱AI的“工程本质”

如果你正在考虑进入AI领域,或者正在为它的“不纯粹”而感到困惑,我想说的是:

别纠结了。从第一性原理出发,AI本来就不是理科。

它不是在发现规律,而是在创造系统。它的底层建筑是一套工程架构,不是数学理论的实现。它的突破来自试错和暴力,不是推导和证明。

它成功的原因,恰恰是挣脱了“必须先有完美理论”的理科束缚,拥抱了“先跑起来再说”的工程哲学。

所以,下次有人跟你说“AI不就是数学吗”,你可以告诉他:

“不。AI是用数学当砖头、用代码当钢筋、用算力当混凝土,硬生生盖起来的一座摩天大楼。至于它为什么能站住?我们也不太清楚。但它确实站住了,而且越来越高。”

这不是理科,这是一门纯正的、靠直觉和代码吃饭的工程学科。

http://www.jsqmd.com/news/684587/

相关文章:

  • 2026年当下福田区电子料回收可靠厂家推荐:深圳市福田区祺芯同创电子商行深度解析 - 2026年企业推荐榜
  • 2026年4月新消息:探寻优质卡式喷枪源头厂商,台州亮客金属实力解析 - 2026年企业推荐榜
  • 如何实现SQL日期加减运算_利用DATE_ADD函数处理周期
  • 2026年第二季度工业清洁新选择:三轮电动扫地车品牌深度**与采购指南 - 2026年企业推荐榜
  • 别再手动启动了!嵌入式Linux(BusyBox)开机自启服务的保姆级配置指南
  • 2026 年河北口碑好的 Bose 音箱/惠威音响/Bose 专业音响厂家选择指南 - 海棠依旧大
  • STM32F407+FreeRTOS+FreeModbus RTU从站移植保姆级教程(基于CubeMX,含源码下载)
  • 2026年4月山东贴缝带源头厂家深度**:谁在引领道路预防性养护新标准? - 2026年企业推荐榜
  • 北斗时间(BDT)与C# DateTime互转实战:处理周内秒、UTC闰秒差与2006起始历元
  • 2026年03月CCF-GESP编程能力等级认证Python编程五级真题解析
  • 品牌升级再添荣耀!融信海创荣膺斯贝瑞“2026年度行业影响力品牌”大奖
  • 2026年4月无锡茅台回收市场指南:为何茅聚顺名酒有限公司备受青睐? - 2026年企业推荐榜
  • Vue3-Marquee 技术架构解析:高性能零依赖跑马灯组件的企业级实践
  • 2026 年上海值得信赖的 AI 电话机器人公司/电话外呼系统/AI 电话机器人厂家推荐 - 海棠依旧大
  • Python 类型别名的演变
  • 2026年第二季度河南LED租赁屏专业服务商深度解析 - 2026年企业推荐榜
  • 2026年q2外墙渗水维修公司实力排行与参考:泸州防水维修,泸州防水补漏,电器更换维修,优选推荐! - 优质品牌商家
  • Redis怎样配置基础连接参数
  • 别再傻傻分不清!一文搞懂蓝牙BT和BLE到底有啥区别(附版本演进图)
  • 2026年4月更新:如何选择一家诚信可靠的芯片回收合作伙伴? - 2026年企业推荐榜
  • 海口音响选型技术分享:海南,海口,三亚,琼海,文昌,万宁,儋州,东方海口舞台音响,海口贝德音响,实力盘点! - 优质品牌商家
  • 从IR2109到IRF3205:手把手教你搭建一个12V转5V的BUCK降压模块(附立创EDA工程)
  • 2026 年苏州正规的缠绕膜/防静电 PE 袋/机用缠绕膜/拉伸缠绕膜/阻燃 PE 袋厂家选择指南 - 海棠依旧大
  • 为什么你的Docker镜像在Quantinuum H1系统上启动失败?:量子门保真度校准、噪声感知挂载、QIR字节码兼容性三重诊断法
  • 通义千问Qwen3大模型部署与TensorRT-LLM优化实践
  • 从分子动力学到结构洞察:用PyMOL可视化B因子分析蛋白柔性
  • 深入ARM指令集:除了SWI和BKPT,CLZ指令如何优化你的算法性能?
  • 抖音批量下载终极指南:三分钟搞定无水印视频采集的完整教程
  • 别再死记硬背ER图符号了!用ChatGPT+Draw.io,5分钟搞定数据库设计初稿
  • CCS12.1新功能救场:用Memory Allocation视图5分钟搞定CC8内存爆满报错