当前位置：首页 > news >正文

大模型AI-入门-发展历程-机器学习

news 2026/7/8 2:00:13

部分内容可能来自网络或者由AI生成。
如有雷同，纯属巧合，仅供学习参考之用。

机器学习（ML）

机器学习是人工智能的核心分支，其本质是让计算机系统从数据中自动学习规律，并用于预测或决策。

一、机器学习的三大核心阶段

机器学习项目可抽象为以下三个阶段，形成一个完整的“学习-应用”闭环：

阶段	名称	核心任务	类比
1	记忆（Memorize）	收集、清洗、理解数据	“读万卷书”——积累经验
2	制定（Formulate）	构建模型、训练参数、优化性能	“总结规律”——提炼方法论
3	预测（Predict）	应用模型对新数据做出预测或决策	“学以致用”——解决实际问题

💡 这一框架强调：数据是燃料，模型是引擎，预测是价值输出。

二、基础概念解析

1. 数据、特征与数据点

数据（Data）：用于训练和测试模型的原始信息集合。
特征（Feature）：描述数据属性的变量，是模型的输入。例如房屋的“面积”、“卧室数”。
数据点（Data Point）：
- 又称样本（Sample）或实例（Instance）
- 在结构化数据中，每一行 = 一个数据点，每一列 = 一个特征或标签

三、线性回归：最简单的监督学习模型

1. 数学表达

线性回归假设目标变量 $ y $ 与输入特征 $ x_1, x_2, …, x_n $ 之间存在线性关系：

y=w_1x_1+w_2x_2+⋯+w_nx_n+by = w\_1 x\_1 + w\_2 x\_2 + \cdots + w\_n x\_n + by=w_1x_1+w_2x_2+⋯+w_nx_n+b

其中：

$ y $：目标变量（因变量/标签），如房价
$ x_i $：输入特征（自变量），如面积、房龄
$ w_i $：权重（Weight），表示特征对预测的贡献程度（即“斜率”）
$ b $：偏置（Bias），当所有特征为0时的基准预测值

📌参数 = 权重 + 偏置，是模型通过训练学习到的核心内容。

2. 模型训练目标

通过最小化预测值与真实值之间的误差（如均方误差 MSE），自动调整 $ w $ 和 $ b $，使拟合直线尽可能贴近数据分布。

3. 与大模型的联系

线性回归仅有 $ n+1 $ 个参数（$ n $ 个权重 + 1 个偏置）
而像DeepSeek-671B这样的大语言模型拥有6710亿个参数（即671B个权重与偏置）
更多参数 → 更强的非线性拟合能力 → 可捕捉复杂模式（如语言、图像中的深层语义）

⚠️ 但参数越多 ≠ 效果越好，需权衡过拟合风险、计算成本与数据规模。

四、机器学习三大范式

1. 监督学习（Supervised Learning）

定义：使用带标签的数据训练模型，学习输入 → 输出的映射关系。
特点：有“教师指导”，目标明确。
主要类型：
- 回归（Regression）：预测连续值（如房价、温度）
- 分类（Classification）：预测离散类别（如垃圾邮件/非垃圾邮件、猫/狗）

🧒类比：不断给婴儿看“冰激凌”的图片并告诉它“这是冰激凌”，之后让它判断新图片是否为冰激凌。

优势：
- 准确性高
- 可解释性强
- 应用广泛（医疗诊断、金融风控、推荐系统等）

2. 无监督学习（Unsupervised Learning）

定义：处理无标签数据，目标是发现数据内在结构或模式。
特点：无教师指导，靠“自主探索”。
主要类型：
- 聚类（Clustering）：将相似样本分组（如客户细分、图像分割）
- 降维（Dimensionality Reduction）：压缩特征维度，保留关键信息（如PCA、t-SNE）
- 生成模型（Generative Models）：学习数据分布以生成新样本（如GAN、VAE）

🧒类比：给婴儿一堆未标注的图片，让它自己将“看起来像的”图片归为一类。

应用场景：
- 探索性数据分析
- 异常检测
- 数据预处理（如降维加速后续建模）

3. 强化学习（Reinforcement Learning, RL）

定义：智能体（Agent）在环境中通过试错（Trial-and-Error）学习策略，以最大化长期累积奖励。
核心要素：
- Agent：学习者（如机器人）
- Environment：外部世界（如迷宫）
- Action：Agent可执行的操作
- Reward：环境反馈的即时奖惩信号
- Policy：Agent的决策策略（目标：找到最优策略
特点：
- 无需标签，仅依赖奖励信号
- 强调序列决策与长期收益
- 广泛应用于游戏AI（AlphaGo）、自动驾驶、机器人控制

五、特征工程：模型性能的“隐形推手”

“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。” —— 吴恩达

特征工程的核心任务

任务	说明	示例
数据清洗	处理缺失值、异常值、噪声	用均值填补空缺年龄
特征选择	保留对目标最有用的特征	从10个房产特征中选出面积、地段、房龄
特征提取	从原始数据构造新特征	从“出生日期”提取“年龄”；CNN自动提取图像边缘
特征转换	改变特征表示形式	归一化（Min-Max）、标准化（Z-score）
编码类别	将非数值特征转为数值	性别{男,女} → One-Hot: [1,0], [0,1]

🍳比喻：特征工程就像“厨师处理食材”——把生肉、蔬菜加工成适合烹饪的形式，模型才能“消化吸收”。

六、文本表示：Token、向量化与Embedding

在NLP和大模型中，如何将文本转化为模型可理解的数字形式至关重要。

1. Tokenization（分词）

将文本切分为基本单元（Token），形式取决于任务需求：

粒度	示例	适用场景
字符级	“机器学习” → [“机”,“器”,“学”,“习”]	拼写纠错、小语种
子词级	“unhappiness” → [“un”, “happi”, “ness”]	BPE、WordPiece（如BERT、LLaMA）
单词级	“I love AI.” → [“I”, “love”, “AI”, “.”]	传统NLP任务
词组级	“New York” → [“New York”]	保留专有名词语义

🔑 每个 Token 会被映射为一个Token ID（整数），供模型内部使用。

2. Vectorization（向量化）

将 Token ID 转换为数值向量，使模型能进行数学运算。

传统方法：
- One-Hot Encoding：稀疏、高维、无语义
- Bag-of-Words (BoW)：忽略词序
- TF-IDF：衡量词的重要性

❌ 缺陷：无法捕捉语义相似性（如“猫”和“狗”在One-Hot中完全无关）

3. Embedding（嵌入）

一种低维、稠密、语义丰富的向量表示方法。

核心思想：语义相近的词，其向量在空间中距离更近。
代表方法：
- Word2Vec：通过上下文预测学习静态词向量 → “猫” ≈ “狗”，远于“石头”
- BERT / Transformer-based：动态上下文嵌入→ “苹果”在“吃苹果” vs “苹果手机”中向量不同！

🌐 Embedding 是大模型理解语言的基础，也是 Prompt Engineering、RAG 等技术的前提。

七、总结：构建完整的 ML 认知地图

维度	关键要点
流程	记忆（数据）→ 制定（建模）→ 预测（应用）
范式	监督（有标签）、无监督（无标签）、强化（奖励驱动）
模型	从线性回归（简单）到大模型（复杂），参数规模决定表达能力
数据	特征工程是提升效果的关键杠杆
表示	Token → ID → Vector → Embedding，文本理解的基石