当前位置：首页 > news >正文

人工智能根本不是理科？聊聊这个被误读了70年的“工科怪物”

news 2026/6/18 13:58:15

从第一性原理出发，你会发现AI的底层建筑完全是另一套东西

引子：一次让我陷入沉思的对话

上周和一位数学系的朋友聊天，他说想转行做AI。我问他为什么，他说：“AI不就是数学的应用吗？线性代数、概率论、微积分，我都很熟。”

我沉默了三秒钟，然后说：“兄弟，你可能对AI有什么误解。”

这让我想起自己入行时的天真——以为搞懂了反向传播的公式就掌握了AI。直到我第一次在128张V100上跑崩了一个模型，第一次因为梯度爆炸损失了三天算力，第一次发现论文里的数学推导在工程实现时全是理想假设...

我幡然醒悟：从第一性原理出发，人工智能从来就不是什么理科。

一、第一性原理视角：AI到底在干什么？

什么是第一性原理？就是把问题拆解到最基本的真理，然后从那里开始重新推导。

那么，用第一性原理看理科和工科的区别：

理科的第一性原理：宇宙中存在客观规律，我们要去发现它们。牛顿发现F=ma，爱因斯坦发现E=mc²。这些规律不依赖于人类而存在，我们只是揭开面纱。
工科的第一性原理：我们要创造原本不存在的东西。工程师设计芯片、桥梁、操作系统。这些东西是人类智慧的产物，不是“发现”的。

现在问一个核心问题：Transformer是第一性原理推导出来的吗？

答案显然是否定的。Google团队在写《Attention Is All You Need》的时候，他们不是在推导一个必然成立的数学定理。他们是在做一个工程决策：“我们把循环和卷积都扔掉，只用注意力机制，看看会发生什么。”

这个决策的依据是什么？不是数学证明，而是工程直觉和实验观察。

所以，从第一性原理出发，AI的底层建筑完全是一套工程架构，而不是数学理论的实现。它和土木工程、机械工程在本质上是一样的——都是在给定的约束下（算力、显存、带宽、数据），设计出能工作的系统。

二、突破来突破去，全都不符合第一性原理

让我们用你的视角，重新审视AI史上的几次重大突破。你会发现一个惊人的共同点：每一次突破都不是从第一性原理出发的，而是从工程需求出发，用试错和暴力手段硬生生趟出来的路。

1. 感知机（1958年）——先造出来再说

发生了什么：罗森布拉特用硬件实现了第一个人工神经网络，能通过“试错”学习识别简单图形。

第一性原理视角：如果从智能的本质出发，你应该先回答“什么是学习”“神经元如何编码信息”这些问题。但罗森布拉特没这么做。他的思维方式是：“我造一个东西出来，让它自己学着干活，看看行不行。”

这就是纯正的工程思维：造出来 > 想明白。

后来Minsky用数学证明了感知机连“异或”都解决不了，直接把第一波AI热潮打入了寒冬。但问题是：如果没有罗森布拉特先“造出来”，Minsky会去证明一个不存在的东西吗？

这就是工程的逻辑：先有东西，再有理论。和物理学完全相反。

2. 反向传播（1986年）——拿来主义工程改造

发生了什么：Rumelhart和Hinton让多层神经网络变得可训练了。

第一性原理视角：反向传播的数学原理（链式法则）早在1970年就被提出来了，但那是一个数学工具，不是神经网络的学习算法。Rumelhart和Hinton做的工作是：把这个数学工具拿来，改造它，让它能在神经网络上跑通。

他们解决的是一堆工程问题：

梯度消失怎么办？
梯度爆炸怎么办？
如何高效计算大规模矩阵的梯度？
网络结构怎么设计才能让梯度顺利传播？

这些问题，没有哪个是能从第一性原理推导出答案的。全是试出来的。

Hinton自己说过一句话，完美诠释了这种工程思维：“是图像让这一切工作，而不是数学。”翻译一下就是：效果说了算，原理可以后面再找补。

3. ImageNet时刻（2012年）——暴力美学的胜利

发生了什么：Alex Krizhevsky用AlexNet在ImageNet上将错误率降低近一半，碾压所有传统算法。

第一性原理视角：AlexNet用的技术（卷积网络+反向传播）十年前就有了。真正的突破是什么？

用GPU暴力加速：为什么用GPU？因为Alex发现自己的游戏显卡跑矩阵乘法飞快。这不是从计算理论推导出来的，是偶然发现。
用ReLU激活函数：为什么用ReLU？因为试了一下，发现训练速度快了好几倍。没有理论证明，就是“试出来好用”。
用Dropout防止过拟合：灵感来自“多个模型投票”的集成学习，这是一个纯工程技巧的移植。

这个突破最讽刺的地方是：当时学术界普遍认为深度网络是训练不好的——这甚至有一些理论上的论据支撑。但Alex不管，他直接上手试，结果发现“理论上不行”的东西，工程上就是work了。

这完美诠释了AI的工程本质：当理论和实践冲突时，相信实践。

4. Transformer（2017年）——Attention is All You Need，但Why？

发生了什么：Google团队提出Transformer，抛弃了循环和卷积，只用注意力机制。

第一性原理视角：如果从第一性原理推导语言模型，你会得出“需要循环来处理序列”“需要卷积来捕捉局部模式”这样的结论。但Transformer说：都不要了，就让每个词直接看所有词。

这个想法优雅吗？优雅。但它是从第一性原理推导出来的吗？不是。

它来源于一个实际问题：RNN在处理长句子时会遗忘开头的内容。然后Google团队做了一个大胆的工程决策：“我们把循环结构彻底干掉，看看能不能行。”

结果证明能行。但问题是：我们至今还在争论它为什么能行。

一个真正的“理科”成果，应该是先有理论，后有实践。而Transformer是先有实践，后找理论——而且理论还没完全找到。这哪里是理科？这是标准的工程范式。

三、AI的底层建筑：完全是一套工程架构

你之前说得非常精准：AI的底层建筑“完完全全就是另一套版本的agent架构建筑”。

让我把这个观点展开。如果我们把一个大模型比作一个“智能体”，它的“建筑蓝图”上画着：

感知模块：怎么把图像、文字转成向量？用ViT还是CLIP？这是一个工程选型。
推理核心：Transformer叠多少层？每层多宽？多少个头？这是一个工程设计。
记忆模块：上下文窗口开多大？要不要外挂向量数据库？这是一个工程决策。
执行模块：怎么调用外部工具、执行代码？这是一个软件集成。

每一笔、每一画，工程师想的都不是“这符合哪条数学定理”，而是：

“这能并行吗？”——受GPU架构约束
“显存够用吗？”——受硬件资源约束
“收敛稳定吗？”——受优化算法约束
“推理延迟低吗？”——受实时性约束
“好部署吗？”——受运维环境约束

这些东西，和写操作系统、设计编译器、搭分布式系统，在本质上没有任何区别。

都是在一堆工程约束下，设计出能工作的系统。数学在这里的角色是什么？是被调用的库——矩阵乘法调cuBLAS，优化调Adam，概率调softmax。

工程师不需要从第一性原理推导这些数学，就像建筑师不需要从烧砖开始学起。

四、为什么这很重要：重新理解AI的“暴力美学”

如果你接受了“AI是工科”这个设定，很多现象就变得可以理解了：

1. 为什么AI有“试错文化”？

理科的典型工作方式是：先推公式，再验证。工科的典型工作方式是：先试一下，不行再改。

AI显然属于后者。ReLU、Dropout、Adam、BatchNorm...这些让深度学习work的关键技术，有几个是推导出来的？几乎全是试出来的。

“我觉得这个想法不错，跑一下看看”——这是AI工程师最常说的话。

2. 为什么AI有“暴力美学”？

当原理不清时，理科的做法是：停下来，把原理搞清楚。工科的做法是：堆资源，硬上。

GPT-3有1750亿参数，训练成本超过1200万美元。GPT-4据传有1.8万亿参数，训练成本过亿。

这优雅吗？不。但有效。

从第一性原理来看，这简直是“愚蠢”的——因为你在用蛮力代替智慧。但问题是：它work了。而且随着规模增大，效果越来越好。这就是所谓的Scaling Law——它不是一条数学定理，它是一个被工程实践发现的经验规律。

3. 为什么AI理论总是滞后于实践？

物理学是理论走在前面（爱因斯坦先推导出相对论，后来才被实验证实）。AI是实践走在前面——模型先跑通了，论文先发表了，然后大家才开始想“它为什么能工作”。

这不是AI的缺陷，这是它的本质特征。因为它是一个工程学科，不是科学学科。

工程师的任务不是理解世界，而是改造世界。理解可以等一等，但产品不能等。

五、结语：拥抱AI的“工程本质”

如果你正在考虑进入AI领域，或者正在为它的“不纯粹”而感到困惑，我想说的是：

别纠结了。从第一性原理出发，AI本来就不是理科。

它不是在发现规律，而是在创造系统。它的底层建筑是一套工程架构，不是数学理论的实现。它的突破来自试错和暴力，不是推导和证明。

它成功的原因，恰恰是挣脱了“必须先有完美理论”的理科束缚，拥抱了“先跑起来再说”的工程哲学。

所以，下次有人跟你说“AI不就是数学吗”，你可以告诉他：

“不。AI是用数学当砖头、用代码当钢筋、用算力当混凝土，硬生生盖起来的一座摩天大楼。至于它为什么能站住？我们也不太清楚。但它确实站住了，而且越来越高。”

这不是理科，这是一门纯正的、靠直觉和代码吃饭的工程学科。

查看全文

http://www.jsqmd.com/news/684587/

2026年当下福田区电子料回收可靠厂家推荐：深圳市福田区祺芯同创电子商行深度解析 - 2026年企业推荐榜

2026年4月新消息：探寻优质卡式喷枪源头厂商，台州亮客金属实力解析 - 2026年企业推荐榜

如何实现SQL日期加减运算_利用DATE_ADD函数处理周期

2026年第二季度工业清洁新选择：三轮电动扫地车品牌深度**与采购指南 - 2026年企业推荐榜

别再手动启动了！嵌入式Linux（BusyBox）开机自启服务的保姆级配置指南

2026 年河北口碑好的 Bose 音箱/惠威音响/Bose 专业音响厂家选择指南 - 海棠依旧大

STM32F407+FreeRTOS+FreeModbus RTU从站移植保姆级教程（基于CubeMX，含源码下载）

2026年4月山东贴缝带源头厂家深度**：谁在引领道路预防性养护新标准？ - 2026年企业推荐榜

北斗时间（BDT）与C# DateTime互转实战：处理周内秒、UTC闰秒差与2006起始历元

2026年03月CCF-GESP编程能力等级认证Python编程五级真题解析

品牌升级再添荣耀！融信海创荣膺斯贝瑞“2026年度行业影响力品牌”大奖

2026年4月无锡茅台回收市场指南：为何茅聚顺名酒有限公司备受青睐？ - 2026年企业推荐榜

Vue3-Marquee 技术架构解析：高性能零依赖跑马灯组件的企业级实践

2026 年上海值得信赖的 AI 电话机器人公司/电话外呼系统/AI 电话机器人厂家推荐 - 海棠依旧大

Python 类型别名的演变

2026年第二季度河南LED租赁屏专业服务商深度解析 - 2026年企业推荐榜

Redis怎样配置基础连接参数

别再傻傻分不清！一文搞懂蓝牙BT和BLE到底有啥区别（附版本演进图）

2026年4月更新：如何选择一家诚信可靠的芯片回收合作伙伴？ - 2026年企业推荐榜

海口音响选型技术分享：海南,海口,三亚,琼海,文昌,万宁,儋州,东方海口舞台音响,海口贝德音响,实力盘点！ - 优质品牌商家

从IR2109到IRF3205：手把手教你搭建一个12V转5V的BUCK降压模块（附立创EDA工程）

2026 年苏州正规的缠绕膜/防静电 PE 袋/机用缠绕膜/拉伸缠绕膜/阻燃 PE 袋厂家选择指南 - 海棠依旧大

为什么你的Docker镜像在Quantinuum H1系统上启动失败？：量子门保真度校准、噪声感知挂载、QIR字节码兼容性三重诊断法

通义千问Qwen3大模型部署与TensorRT-LLM优化实践

从分子动力学到结构洞察：用PyMOL可视化B因子分析蛋白柔性

深入ARM指令集：除了SWI和BKPT，CLZ指令如何优化你的算法性能？

抖音批量下载终极指南：三分钟搞定无水印视频采集的完整教程

别再死记硬背ER图符号了！用ChatGPT+Draw.io，5分钟搞定数据库设计初稿

CCS12.1新功能救场：用Memory Allocation视图5分钟搞定CC8内存爆满报错