当前位置：首页 > news >正文

AI、ML、DL：从同心圆到ChatGPT，你必须知道的底层逻辑！

news 2026/7/1 13:50:06

本文深入剖析了AI、ML、DL三者的关系，从宏观概念到具体实现方式，用同心圆模型形象展示层级关系。文章详细介绍了机器学习的三种方式：监督学习、无监督学习和强化学习，并解释了神经网络家族中CNN、RNN和Transformer的应用场景和技术特点。此外，文章还介绍了大语言模型（LLM）的原理和主要模型，如GPT、BERT、Claude等，并解释了模型参数如Token、参数量、上下文窗口等概念。最后，文章揭示了模型训练的四个阶段：预训练、微调、RLHF和DPO，帮助读者全面理解AI能力来源。

第一层：先搞清楚"AI和ML和DL"到底是什么关系

很多人一开口就把AI、机器学习、深度学习混着用，其实它们是完全不同层级的概念。

用"同心圆"来理解最直观——三个圈，一层套一层：

最外面的大圈：人工智能（AI，Artificial Intelligence）

AI是一个宏观概念，泛指"让机器表现出类似人类智能的能力"——能看、能听、能说、能推理、能决策。

注意，AI并不等于"深度学习"，更不等于"ChatGPT"。早在1950年代，人们就开始研究AI了，那时候既没有神经网络，也没有大数据，用的是硬编码的规则系统。比如"国际象棋程序"，就是早期AI的一种——只不过是人类把所有规则都手工写进去的，笨是笨了点，但确实算AI。

中间那个圈：机器学习（ML，Machine Learning）

机器学习是实现AI的一种方式。

区别在哪？区别在于：传统AI靠人写规则，机器学习靠机器自己从数据中找规律。

说人话就是：以前教机器识别猫，是程序员把"猫有尖耳朵、有胡须、有四条腿……"这些特征全部手写进去。机器学习的做法是：把一百万张猫的图片扔给机器，让它自己总结规律。

哪种更聪明？显然是后者，因为人类根本没法穷举现实世界的所有规则。

最里面的核心圈：深度学习（DL，Deep Learning）

深度学习是机器学习的一种方法，核心是用"多层神经网络"处理复杂数据。

为什么叫"深度"？因为网络层数很多，信息要经过很多层的加工处理，就像经过了很多道工序的流水线。这个"深"，不是指思想深度，是指网络的层数多。

深度学习在处理图像、语音、文字这些非结构化数据上，效果远超传统机器学习方法。2012年之后，深度学习横扫了几乎所有AI比赛，成了主流。

三者关系一句话总结：

AI ⊇ 机器学习 ⊇ 深度学习
深度学习是机器学习的一种，机器学习是AI的一种实现方式，AI是最大的那个框。

第二层：机器是怎么"学习"的？三种学习方式

机器学习这个词听起来很玄，其实类比人类学习，很好理解。

监督学习（Supervised Learning）——“看带答案的题目”

把一堆"已经标注好答案"的数据给机器看，让机器学会从输入推出输出。

就像小时候父母拿着图片卡教你认字："这是苹果，这是香蕉，这是汽车……"每张图都有标签，你的大脑在反复纠错中建立了认知模式。

现实中的邮件垃圾过滤就是监督学习：给机器看几百万封邮件，每封都标注"垃圾/正常"，机器学会了自己判断。

无监督学习（Unsupervised Learning）——“自己找规律”

不给标签，把一堆原始数据扔给机器，让它自己找规律和分组。

就像把一大堆玩具倒在地上，孩子没有人指导，自己把积木放一堆、把玩具车放一堆、把毛绒玩具放一堆——没人告诉他"这叫积木"，他只是发现这几个形状类似。

电商平台的"用户分群"用的就是无监督学习：没有人提前定义"这是价格敏感用户/这是品质用户"，算法自己从购买行为里发现了分组。

强化学习（Reinforcement Learning）——“在试错中进化”

机器在环境中不断尝试行动，做对了给奖励，做错了给惩罚，慢慢摸索出最优策略。

就像小朋友玩游戏，打倒怪物加分，掉进坑里扣血。不需要有人教，反复玩就知道哪些操作有效了。

AlphaGo就是强化学习的经典案例——没有人告诉它"这步棋好不好"，它和自己下了几百万盘棋，从失败中总结出了人类几百年都没摸透的棋局规律，然后打败了世界冠军。

（说实话，AlphaGo那场比赛是我对AI"真的认真起来了"的时刻。）

第三层：神经网络家族——谁擅长看图，谁擅长读文章

大概了解了"机器怎么学"，再往下一层：机器用什么结构来学？答案是神经网络。

神经网络（Neural Network，NN）——模拟人脑的计算模型

人脑有860亿个神经元，神经元之间通过突触连接，信号在其中传递、加工、做出反应。

人工神经网络也是类似的逻辑：由"节点（神经元）"和"连接（权重）"组成，数据从一端输入，经过多层处理，从另一端输出结果。

不同的是，人脑是生物电化学系统，机器里是浮点数矩阵运算。效果不同，但思路相通。

CNN（卷积神经网络，Convolutional Neural Network）——擅长"看图"

CNN是专门为图像设计的网络结构。

类比一下：你怎么识别一张照片里有没有猫？你的眼睛会先扫描局部特征——耳朵的形状、眼睛的位置、胡须的纹理——然后大脑把这些局部特征组合起来，判断"这是猫"。

CNN做的事情一样：用"卷积核"这个小窗口滑过整张图，提取局部特征，再逐层组合出更抽象的特征，最终做出判断。

人脸识别、医疗影像诊断、安防摄像头里的目标检测，都是CNN的主场。

RNN（循环神经网络，Recurrent Neural Network）——擅长"处理序列"

RNN是为有"前后顺序"的数据设计的。

文字有顺序，"我爱你"和"你爱我"意思完全不同；语音有顺序，音节顺序换了就变成另一个词。

RNN的核心特点是"有记忆"——处理当前信息时，会把前一步的状态也带进来，就像在听一段话时，你会联系上下文理解当前这个词的意思。

早期的语音识别、机器翻译都是RNN做的。不过RNN有个致命弱点：记忆太短，遇到长文本，前面的信息会"遗忘"。

Transformer——全能选手，现代AI的基石

2017年，Google发表了一篇论文《Attention is All You Need》（注意力就是你所需要的全部）。

这篇论文提出了Transformer架构，直接把CNN和RNN都干翻了，成为此后所有顶级AI模型的基础。

Transformer的核心是"注意力机制（Attention Mechanism）"。

说人话就是：读一段文字时，人不会对每个词平等对待——读"他昨天买了一本很贵的书"这句话，如果问你"书是什么时候买的"，你的注意力会自动聚焦在"昨天"这个词上。

Attention机制模拟的就是这个过程：让模型学会"读文章时，哪些词更重要，应该多关注"。

Transformer的另一个优势是可以并行计算，训练速度远快于RNN，因此可以喂给它巨量数据。

GPT、BERT、Claude、Gemini、DeepSeek……你所有听说过的顶级大模型，底层全是Transformer。

第四层：大语言模型（LLM）是什么？认识那几个大名字

有了Transformer这个强大的架构，加上海量的文本数据和超大规模的算力，就能训练出"大语言模型"，英文叫Large Language Model，简称LLM。

LLM的本质是：在海量文本上训练的、擅长理解和生成语言的超大规模模型。

来认识一下目前最重要的几个模型：

模型	机构	一句话定位	典型优势
GPT-4 / GPT-4o	OpenAI	最知名，ChatGPT背后	生成能力强，通用性极高
BERT	Google	理解型模型的鼻祖	文本理解、搜索排序
Claude 3.x	Anthropic	最像"靠谱分析师"	长文本、安全、逻辑强
Gemini 2.x	Google DeepMind	多模态全能选手	同时处理文图音视频
DeepSeek-R1/V3	深度求索（中国）	性价比之王，开源	推理能力强，MoE架构
Kimi k1.5	月之暗面（中国）	超长上下文	处理超长文档
豆包	字节跳动（中国）	国内日活最高	中文生活场景
通义千问	阿里巴巴（中国）	企业级部署	与阿里云生态深度整合

几个快速记忆点：

想写文章、做内容——ChatGPT/Claude都好用
想做深度分析、读超长报告——Claude是首选
想搜索带来源的答案——Perplexity专门做这个
想在中文场景用，不想付美元——Kimi/豆包/通义千问三选一
关注开源、想本地部署——DeepSeek是目前最强的选择

第五层：模型参数那些词，你不用懂原理，但要不被唬住

聊AI时经常会听到一堆参数词，让人头大。用"买车"来类比：

Token——AI的"字"

Token是AI读写文本的最小单位。AI处理文本时，不是按字母或汉字一个个读，而是按Token分割。

大概的对应关系：1个英文单词 ≈ 1个Token，1个汉字 ≈ 1-2个Token，一个标点符号也是一个Token。

为什么重要？因为API按Token计费，上下文窗口也按Token计量。聊的越多、消耗的Token越多，费用越高。

参数量（Parameters）——模型的"脑容量"

就像汽车的发动机排量。GPT-3有1750亿个参数（175B），GPT-4据估计超过1万亿参数，DeepSeek-V3约671B参数。

参数越多，模型的"记忆容量"和"理解上限"通常越高，但训练成本和推理成本也越高。

不过2025年的一个重要趋势是：小参数模型通过更好的数据和训练方法，性能已经接近甚至超过老一代大参数模型。参数量不再是唯一指标。

上下文窗口（Context Window）——模型的"工作台大小"

模型每次对话能"记住"多少内容，就是上下文窗口。GPT-4 Turbo是128K Token，大约相当于10万字。

超过这个限制，模型就"忘了"之前说的内容了。这就是有时候和AI聊得太长，它开始答非所问的原因。

Kimi的主要卖点之一就是超长上下文——早期版本支持200K Token，可以一次性读整本书或者整份财报。

Temperature（温度）——创意旋钮

控制模型回答的"随机程度"。

Temperature = 0：模型给出最确定的答案，几乎每次相同，适合写代码、做计算。

Temperature = 1 甚至更高：模型更随机，脑洞更大，适合写诗、做创意头脑风暴。

你可以把它理解为"认真模式"和"灵感模式"的切换开关。

Top-P——词汇多样性控制

配合Temperature使用，控制模型每次从多大范围的词汇候选中选词。Top-P=0.9意味着只从概率加起来达到90%的候选词中选，避免出现太奇怪的词。

这两个参数不理解也没关系，记住：**代码类任务调低Temperature，创意类任务调高，**就够用了。

第六层：模型是怎么被训练出来的？

这是理解AI能力来源的关键。用"培养一个新员工"来类比：

第一阶段：预训练（Pre-training）——“海量阅读打底”

想象你招进来一个应届生，第一件事不是让他马上干活，而是让他先把公司所有的文档、行业报告、教材全部读一遍。

大模型的预训练类似：用几乎整个互联网的文本数据（万亿级Token），让模型学会语言的基本规律——什么词常在一起出现、这句话接下来最可能是什么——本质是一个巨大的"完形填空"任务。

这个阶段不需要标注数据，完全无监督，但需要天量的算力。训练GPT-4据估计花费了超过1亿美元。

第二阶段：微调（Fine-tuning / SFT）——“岗位专项培训”

基础知识有了，下一步是针对特定工作做培训。

用标注好的高质量对话数据，教模型"遇到用户问题应该怎么回答"，让它学会对话格式、学会按指令行事。这一步叫监督微调（Supervised Fine-Tuning，SFT）。

第三阶段：RLHF——“让人给你打分”

Reinforcement Learning from Human Feedback，人类反馈强化学习。

让模型对同一个问题生成多个不同答案，然后由真人标注员给这些答案打分排序，再用强化学习把"高分答案的特征"强化进模型里。

这一步是让模型从"能回答问题"进化到"回答得好"的关键——更安全、更有用、更符合人类的期望。ChatGPT能让普通人也觉得好用，RLHF功不可没。

第四阶段：DPO——“更高效的好坏对比”

Direct Preference Optimization，直接偏好优化。

是RLHF的简化版——不需要单独训练一个打分模型，直接告诉大模型"这个回答A比回答B好"，用对比数据直接优化。

说真的，这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型，挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis，稳稳当当过日子。

结果GPT、DeepSeek火了之后，整条线上的人都开始有点慌了，大家都在想：“我是不是要学大模型，不然这饭碗还能保多久？”

我先给出最直接的答案：一定要把现有的技术和大模型结合起来，而不是抛弃你们现有技术！掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地！大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇！

这绝非空谈。数据说话

2025年的最后一个月，脉脉高聘发布了《2025年度人才迁徙报告》，披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月，新发AI岗位量同比增长543%，9月单月同比增幅超11倍。同时，在薪资方面，AI领域也显著领先。其中，月薪排名前20的高薪岗位平均月薪均超过6万元，而这些席位大部分被AI研发岗占据。

与此相对应，市场为AI人才支付了显著的溢价：算法工程师中，专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%；产品经理岗位中，AI方向的产品经理薪资也领先约20%。

当你意识到“技术+AI”是个人突围的最佳路径时，整个就业市场的数据也印证了同一个事实：AI大模型正成为高薪机会的最大源头。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】：

✅从入门到精通的全套视频教程
✅AI大模型学习路线图（0基础到项目实战仅需90天）
✅大模型书籍与技术文档PDF
✅各大厂大模型面试题目详解
✅640套AI大模型报告合集
✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（0基础到项目实战仅需90天）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式：
有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

查看全文

http://www.jsqmd.com/news/791152/

自然语言如何零误差生成可测试需求？SITS 2026认证专家首曝5类语义坍塌陷阱及校验模板

ollama国内镜像源不稳定，如何用Taotoken快速接入大模型API

解锁网盘直链下载新体验：八大平台一键加速攻略

从HDLbits刷题到项目实战：如何构建一个带序列检测的完整定时器（FSM）

别再在面包板上折腾了！用LMV358做个即插即用的实验放大器模块（附AD工程文件）

量子生成对抗网络在药物分子设计中的突破应用

Android SELinux实战：从avc denied日志到完整allow规则，手把手教你搞定系统服务权限问题

别再浪费你的好耳机了！手把手教你用PotPlayer和Dolby Access解锁Windows 11/10的杜比全景声

mammoth.js完整指南：快速将Word文档转换为HTML的终极解决方案

通过 Taotoken CLI 工具一键配置开发环境与团队协作密钥

视频怎么去水印？2026实测视频去水印方法与工具全攻略

模型版本漂移预警失效，GPU显存泄漏难复现，A/B测试指标失真——SITS 2026现场攻防实录，大模型运维避坑指南

FFmpeg硬件转码实战：基于NVIDIA NVENC的H265到H264高效转换方案

别再手动拷贝文件了！HBuilderX打包APK的两种高效部署方案详解（本地嵌入 vs 远程URL）

通过Taotoken CLI工具一键配置多开发环境下的统一模型接入

智能地址解析技术揭秘：从混乱文本到结构化数据的魔法转换

【仅剩97天】SITS 2026倒计时预警：3类企业已启动AI原生研发“战备迁移”，你还在用微服务编排LLM？

AI Agent记忆系统设计指南：从OpenClaw到业界主流方案，助你打造智能对话连续性

Java高并发场景下ScheduledExecutorService的实战应用与避坑指南

【SpringBoot 从入门到架构师】第1章：SpringBoot初识与开发环境准备

KMS_VL_ALL_AIO：Windows与Office激活的一站式智能解决方案

深度解析SOLIDWORKS在Linux平台的5大技术突破与完整部署指南

Taotoken标准OpenAI协议兼容性带来的无缝迁移体验

视频赋能实景厘米级构筑孪生底座 ——纯视频三维反演技术，重塑数字孪生与视频孪生底层技术架构

从CAD图纸到Web可视化：手把手教你用ezdxf和Plotly/Dash构建交互式图纸查看器

从Git clone到Git train：AI原生分支策略首次定义（feat/rlhf、hotfix/loss-spike、release/v3.2.1-quantized）

别再烧芯片了！手把手教你用IR2104+LR7843搭建能扛大电流的电机驱动板（附PCB文件）

保姆级教程：用Anaconda在Windows 10上快速搭建CycleGAN/pix2pix环境（PyTorch 1.1.0版）

在自动化客服场景中利用Taotoken聚合多模型提升响应质量与稳定性

如何快速解决Windows快捷键冲突：3步终极检测指南